По оценкам IDC, объем данных в мире, подлежащих хранению, растет со скоростью около 50 % в год. При этом примерно 80 % из них являются архивными, т. е. должны храниться долгое время и не требуют постоянного доступа к ним. В России эти цифры, возможно, даже больше – вследствие законодательства об информационной безопасности, требующем хранить сетевой трафик в течение длительного времени. Поэтому системы архивации в настоящее время приобретают особую актуальность.

Определения и различия

Термины «архивация данных» (data archiving) и «резервирование данных» (data backup) иногда используются один вместо другого даже профессионалами, хотя между ними есть существенная разница.

Резервирование – это процесс копирования данных, чтобы в случае повреждения исходников информация не терялась и ее можно было быстро восстановить. Резервное копирование – это не только защита от повреждения файла, ошибок пользователя или воздействия злонамеренных программ. Это также план действий в экстренных ситуациях, например, в случае повреждения оборудования (пожар, наводнение и пр.) или его отказа. Если у организации нет резервирования, то ее бизнес подвергается большому риску.

При резервировании особенно важным является время извлечения данных, которое должно быть наименьшим. Основной смысл резервирования – как можно более быстрое восстановление данных в случае их утери или компрометации.

Различие между резервированием и архивированием

Различие между резервированием и архивированием

Архивирование делается в тех случаях, когда нужно разместить долго неиспользуемые данные в надежном месте на долгий срок. В исходном местоположении они при этом удаляются, чтобы освободить место для поступающих актуальных. Если какие-то данные срочно не нужны и они просто занимают место на диске продуктивного сервера, то такие данные называют «холодными» и их целесообразно отправить в «холодильник», т. е. в архив. Когда эти данные понадобятся, должны быть оптимальные методы их поиска и извлечения из архива. В этом случае извлечение архивированных данных происходит при необходимости.

При архивировании, в отличие от резервирования, срочности при извлечении данных не требуется, и наиболее важными является три вещи: сохранность, дисковое пространство и возможность поиска нужных данных.

Поскольку приоритеты резервирования и архивирования довольно сильно отличаются, то и средства реализации этих целей разные. Например, поскольку при архивировании данным не нужно быть доступными «прямо сейчас», то нет большого смысла хранить их в NAS. Лучше для этого использовать внешние диски или ленты и складировать их в надежном месте.

Резервирование и архивирование не взаимоисключают друг друга

План предприятия по защите данных должен предусматривать оба процесса: как эффективную систему резервирования, так и надежный метод архивирования.

Например, если делать только резервирование, но не делать архивирование, то работающие в организации серверы быстро заполнятся «холодными данными», которые больше не нужны в бизнес-процессе, а их нужно раз за разом резервировать, повышая нагрузку на этот процесс.

С другой стороны, если только архивировать данные, но не резервировать, то в случае какой-то катастрофы бизнес-процесс останавливается на довольно продолжительное время, что может ему существенно повредить. Если на процесс восстановления данных из архива уходит много времени, то компания может просто «вылететь» с динамичного рынка, растеряв клиентов.

Системы резервирования были рассмотрены в этой статье, а здесь мы рассмотрим системы архивирования.

Процесс архивирования

Защита важной бизнес-информации от потерь не только желательна, но и во многих случаях обязательна по законодательным и регуляторным причинам. Для эффективной защиты информации организации должны находить оптимальный баланс между стоимостью архивирования данных и их реальной ценностью. Поэтому подход к реализации архивирования в каждом случае должен включать сбалансированные требования организации в части политик, процедур, персонала и продуктов для реализации процесса архивации данных.

  • Политики. В организации должен быть хорошо проработанный план на случай различных катастроф и отказов, приводящих к полной потере данных. В политиках должен быть детально прописан жизненный цикл информации так, чтобы архивные данные с истекшим сроком хранения могли быть быстро и надежно уничтожены и освободили место для новых, подлежащих хранению в течение определенного срока. Должен быть установлен уровень SLA, который определяет, как быстро данные должны быть извлечены и восстановлены из архива в случае необходимости.
  • Процедуры. На случай необходимости восстановления данных из архива должно быть детальное описание процедуры такого восстановления с тем, чтобы они были восстановлены целиком и за строго определенный промежуток времени. Эти процедуры должны легко администрироваться в случае распределенной структуры организации, чтобы быстро и безопасно проделать эту работу в случае потери данных в каком-либо филиале или региональном офисе.
  • Персонал. Персонал организации, ответственный за архивацию данных, должен иметь возможность централизованного мониторинга системы при минимальном обучении. В его распоряжении должны быть средства оптимизации системы; кроме того, он должен понимать, что данные архивируются в соответствии с их предназначением и установленной процедурой. Персонал должен уметь настраивать систему и быстро находить ошибки, чтобы данные не оставались незащищенными.
  • Продукты. Продукты для архивации должны удовлетворять требованиям организации, архитектура должна соответствовать операционной системе и приложениям, используемым в организации. Должна поддерживаться распределенная модель хранения и администрирования. Должна обеспечиваться защита данных при помощи достаточно сильного шифрования и вирусного сканирования. ПО системы архивации следует регулярно обновлять, отслеживать появление обновлений ПО продуктивных серверов и учитывать эти изменения. Должны также обеспечиваться ясные отчеты о работе, состоянии и выдача предупреждений в случае обнаружения сбоев.
Процесс архивирования данных в организации

Процесс архивирования данных в организации

Решения для архивации

При планировании решения для архивации прежде всего необходимо решить, за какой время требуется получить доступ к архивным файлам. Если допустим срок в несколько минут, то наиболее выгодным решением архивирования будут ленточные библиотеки.

Для быстрого перемещения файлов в архив решения архивации должны разбивать слишком большие файлы на несколько частей, а также объединять множество небольших по размеру файлов в несколько крупных архивных. Профессиональные решения архивации должны обладать функциями поиска нужной информации. Например, это могут быть эффективные индексирующие и поисковые машины. Также есть специализированные решения для индексации аудио- и видеофайлов.

Системы архивации должны обеспечивать автоматическую миграцию хранимых файлов на новые аппаратные платформы, позволяющую копировать данные со старых носителей на новые без прерывания продуктивного процесса. Для гарантии целостности архивных файлов решения архивации должны регулярно проверять данные, хранящиеся на дисковых или ленточных системах хранения, и при обнаружении ошибок создавать новую копию. Большинство решений для архивирования сохраняют не менее двух копий.

Согласно законодательству, необходимо сохранять без изменений такие документы, как квитанции, счета или электронные письма, в течение определенного срока. При этом необходимо обеспечить невозможность их редактирования и круглосуточную доступность, например, для налоговой проверки.

В прошлом для защиты от изменений использовались оптические носители, такие как CD, DVD или магнитооптические (MO) диски. Решения на основе дисковых и ленточных систем WORM (Write Once Read Many) обеспечивают значительно большую гибкость и масштабируемость, чем оптические библиотеки, при этом технология WORM гарантирует невозможность изменения записанных файлов.

Технологии архивации

Технология иерархического хранения HSM (Hierarchical Storage Management) обеспечивает автоматическое перемещение данных на более дешевые носители на основе определенных критериев: например, по частоте обращений к данным или их возрасту. Могут также использоваться пороговые значения – например, при заполнении емкости жесткого диска выше определенного порога происходит перемещение файлов в архив.

Большинство решений HSM имеют несколько уровней, когда часто используемые данные располагаются на «быстрых» СХД, например, SSD. Файлы, востребованные реже, автоматически перемещаются на вторичные диски (Nearline), и затем, если нет частых обращений к ним, они переносятся на недорогие ленточные накопители. В исходном месте хранения при этом ставится маркер со ссылкой на новое расположение, и, в случае необходимости доступа к файлу из архива, система HSM извлекает его на более высокие уровни.

Технология управления жизненным циклом информации ILM (Information Lifecycle Management) имеет больше функций, чем HSM. Набор правил ILM определяет, как необходимо работать с файлами в течение их жизненного цикла. Большинство систем управления документами DMS (Document Management System) и систем управления корпоративным контентом ECM (Enterprise Content Management) поддерживают функции ILM.