В прошлой статье мы представили технологический обзор объектных СХД. В этой статье приведен небольшой обзор решений на примере трех популярных систем объектного хранения:

  • Dell EX3000D, недорогая многоцелевая система хранения высокой плотности, которую можно использовать как программно-конфигурируемую распределенную систему хранения SDS (Software Defined Storage), как гиперконвергентный узел и как основу для создания облачной эластичной системы хранения (ECS);
  • Western Digital ActiveScale, объектное хранилище неструктурированных данных, начиная с полезной емкости 800 ТБ до нескольких десятков петабайт в едином пространстве имен (namespace), которое оптимизирует использование хранилища в средах со смешанными нагрузками;
  • IBM Spectrum Scale, система управления хранилищем с поддержкой горизонтального масштабирования, служит основой унифицированного подхода к поддержке виртуализации, аналитического окружения, работы с файлами и объектами, предназначена для поддержки приложений с большими объемами данных (например, репозиториев контента и систем анализа больших данных).

Dell EX3000D

Объектная система хранения корпоративного класса ECS (Elastic Cloud Storage) от компании Dell EMC предназначена для хранения и управления неструктурированными данными в облачных СХД. ECS EX3000D может обеспечить снижение ТСО почти на 60 % по сравнению с другими облачными СХД. EX3000 может обеспечивать плотность хранения около 9 Пбайт данных на одну стойку и масштабироваться практически неограниченно (до уровня эксабайт).

ECS – хороший выбор для предприятий с быстрым ростом объемов хранения. Объектная СХД позволяет использовать распределенную архитектуру хранения, что очень важно для крупных предприятий национального и международного масштаба. Она дает возможность хранить и быстро находить миллиарды файлов разных размеров и типов на единой платформе хранения и может быстро расширяться.

Существенным ее преимуществом является возможность разворачиваться на корпоративной ИТ-платформе в виде программных модулей (appliance), а также в облаке под управлением Dell EMC или в обоих режимах сразу. При этом поддерживается много протоколов как объектного (S3, Swift, Atmos, CAS), так и файлового типа (HDFS, NFSv3).

Достоинством решения является возможность эффективного использования в различных сценариях Интернета вещей, анализа больших данных, архивирования и др.

Для корпоративного применения ECS обеспечивает разнообразные функции управления данными, такие как:

  • шифрование внутридоменного трафика при репликации данных Data-at-rest (D@RE), что повышает безопасность системы;
  • управление идентификацией, авторизацией и доступом (ААА) с функциями службы каталогов Active Directory и LDAP при доступе пользователей к корпоративным данным;
  • использование функций мониторинга и выдачи предупреждений, таких как SNMP traps и SYSLOG;
  • управление свободным пространством в СХД для освобождения места (Garbage Collection);

Также доступны другие полезные для корпоративного применения функции, такие как многоарендность (multi-tenancy), мониторинг пространства, предупреждения и пр.

ECS может значительно сэкономить затраты на владение ТСО (Total Cost of Ownreship), в случае как традиционных, так и публичных облачных СХД. Например, плотность данных на стойку увеличена с 192 терабайт в традиционных системах до более чем 8 петабайт, что дает большую экономию места и ресурсов дата-центра, а также за счет значительного снижения накладных расходов на управление (management overhead).

Важным достоинством является возможность использовать стандартные программные интерфейсы RESTful API для автоматизированного взаимодействия систем, что значительно снижает необходимость ручной работы высококвалифицированного инженерного персонала.

В ECS используются два типа вычислительных узлов серии EX: EX300 и EX3000.

EX300 обеспечивает низкую начальную емкость кластера в 60 терабайт и может эффективно расширяться до более масштабных СХД.

EX3000 обеспечивает высокую плотность хранения (8,6 петабайт на стойку) и может вырастать до нескольких эксабайт в распределенных СХД на многих разнесенных площадках. Это дает возможность создавать виртуальные дата-центры (VDC) на распределенных инфраструктурах и делает EX3000 перспективным вариантом для развертывания систем виртуализации, видеоаналитики, виртуальной и дополненной реальности, анализа данных от датчиков и управления исполнительными механизмами IoT, в т. ч. в ЖКХ, умных городах, интеллектуальных транспортных системах, при удаленном обучении и прочих подсистем цифровой экономики.

Узлы EX3000 доступны в двух вариантах: EX3000S (один узел) и EX3000D (два узла).

Шасси EX3000D

Шасси EX3000D (http://doc.isilon.com)

Western Digital ActiveScale

Создавалась компанией Western Digital DataCenter Systems для ЦОД уровня 2 и 3. Семейство ActiveScale – это интегрированная система объектного хранения, включающая программную платформу для объектного хранения данных, которая дает возможность динамически масштабироваться по различным направлениям: пространству имен (namespace), производительности и емкости.

Рисунок 1. Семейство ActiveScale

Рисунок 1. Семейство ActiveScale (https://documents.westerndigital.com)

В семейство входят продукты:

  • ActiveScale X100, которая может масштабироваться от 1 до 74 петабайт и образовывать разнообразные конфигурации в едином пространстве имен, а также может управляться с единого экранного интерфейса.
  • ActiveScale P100 для емкостей от 864 терабайт до более чем 27 петабайт. Наибольшего стоимостного эффекта удается достичь при емкостях менее 2 петабайт, и также может управляться с единого экранного интерфейса.
  • ActiveScale Unified Data Access, система унифицированного доступа, обеспечивающая файловое хранение в ActiveScale без необходимости использования внешнего оборудования или шлюзов. Эта функция очень полезна для приложений, генерирующих большие файлы и наборы данных. Данные при этом пишутся как объекты, но могут быть считаны через интерфейсы как объектного, так и файлового доступа.

X100 и P100 могут обеспечивать пропускную способность в 8 ГБ/с с масштабированием до 25 ГБ/с для сценариев, где требуется высокая продуктивность.

Продукты ActiveScale X100 and P100 также содержат приложение ActiveScale CM, облачное приложение для извлечения полезных данных (insight) и их анализа. Этот инструмент может отслеживать исторические тренды, изменения моделей емкости и ее использования, а также прогнозирование трендов, при возможности мониторинга всех продуктов ActiveScale на пространстве распределенных дата-центров (или виртуального дата-центра в распределенной инфраструктуре).

Использование технологий Advanced Erasure Coding и BitSpread® обеспечивает чрезвычайно высокую устойчивость хранения (доступности) данных «девятнадцать девяток», т. е. 99.Х %, где Х – 17 девяток после десятичной запятой (19 nines).

Основные области применения включают системы интеллектуального видеонаблюдения, доставки контента (медийные применения), оптимизации NAS, архивирования, хранения данных научных экспериментов, а также как Data Lake (репозиторий неструктурированных данных) для различных видов анализа больших данных. Кроме того, ActiveScale может быть эффективно использована для создания систем катастрофоустойчивости (Disaster recovery), а также для машинного обучения, нейросетей и как средство для оперативной загрузки в облако (Cloud bursting).

Объектные системы хранения, ориентированные на подобные применения, будут особенно полезны в условиях, когда основную долю роста объема данных будут содержать медийные данные различного назначения.

Рисунок 2. Рост хранимых объемов данных различного назначения

Рисунок 2. Рост хранимых объемов данных различного назначения (исследование IDC, 2017 г.)

IBM Spectrum Scale

До 2015 года СХД Spectrum Scale называлась IBM General Parallel File System (GPFS). Сейчас Spectrum Scale – это унифицированная файловая и объектная система хранения, предназначенная для обработки больших массивов данных с высокой производительностью, которая подходит как для корпоративной ИТ-системы, так и для облака.

Как и другие файловые системы, Spectrum Scale может работать на множестве кластеров хранилища, в среде различных ОС: AIX 5L, Linux, Microsoft Windows Server. Кроме возможностей файловой системы хранения, Spectrum Scale имеет средства для управления и администрирования кластеров СХД и обеспечивает совместный доступ к удаленным кластерам по протоколам POSIX, NFS, SMB, HDFS, S3 и др., то есть позволяет строить распределенные СХД. Для всех данных может быть обеспечено единое пространство имен с единым центром управления, оснащенным удобным интуитивно понятным интерфейсом.

Рисунок 3. Совместная работа различных кластеров и типов хранилищ с перемещением данных в зависимости от даты последнего доступа

Рисунок 3. Совместная работа различных кластеров и типов хранилищ с перемещением данных в зависимости от даты последнего доступа (https://www.ibm.com/us-en/marketplace/scale-out-file-and-object-storage).

По данным IBM, Spectrum Scale способна снизить стоимость хранения на 90 %, быстродействие при использовании SSD-накопителей повышается до 6 раз, а также может предоставлять практически неограниченный размер файловой системы – до миллионов зетабайт.

Spectrum Scale можно разделить на 256 меньших систем (см. рисунок ниже).

Рисунок 4. Логическая структура IBM Spectrum Scale

Рисунок 4. Логическая структура IBM Spectrum Scale (материалы IBM Corporation, 2017)

Каждая файловая система может быть также подразделена на ветви с наборами файлов. В каждой ветви можно создавать свой набор правил, которые относятся только к файлам этой ветви. Можно определять квоты для каждого пользователя, группы или набора файлов.

Преимущества IBM Spectrum Scale:

  1. Кеширование объектных данных (Thin-thick storage capacity).

Spectrum Scale с функцией AFM (Active File Management) дает возможность кеширования объектных данных по распределенным сайтам с сервисом Thin-provisioning в режиме, когда быстродействие IOPS активного сайта хранения меньше, чем резервного (пассивного). AFM обеспечивает постоянное кеширование, которое не перестает работать при разрыве соединения между сайтами, таким образом обеспечивая непрерывность операций ввода-вывода.

  1. Встроенная аналитика объектных данных.

Большинство распространенного аналитического ПО работает поверх файловых систем, и, чтобы выполнить анализ данных, обычно требуется переместить данные из объектного хранилища в файловую систему либо для файлового доступа объектная система должна оснащаться шлюзом. Поскольку Spectrum Scale является унифицированной файлово-объектной системой, для нее это не требуется.

  1. Автоматизация размещения часто используемых объектов для быстрого доступа

Часто используемые объекты можно разместить в быстродействующих модулях хранения, например SSD, а редко используемые – в более медленных системах. Spectrum Scale распознает и размещает такие объекты автоматически.

  1. Разнесенное развертывание систем в режиме «активный-активный».

При доступе к объектам через сеть WAN с высокими задержками это способно негативно повлиять на метрики качества работы приложений и сервисов. Spectrum Scale может автоматически создавать реплики данных в кластерах, расположенных ближе к месту их использования.

  1. Создание собственного ПО для pre/post-обработки объектов.

Объектная СХД Spectrum Scale дает возможность создавать собственное «промежуточное ПО» (middleware) для предварительной или последующей (pre/post) обработки объектов. Это может быть полезно, например, в системах IoT для извлечения полезных инсайтов из потока данных датчиков IoT перед отправкой их в централизованные системы анализа больших данных.

  1. Перемещение объектов на ленточные накопители.

Многие финансовые организации, такие как традиционные банки, все еще полагаются на архивное хранение данных в ленточных библиотеках. Spectrum Scale позволяет интегрировать ленточные накопители для работы с объектными данными.

  1. Размещение по уровням (Tiering) в зависимости от метаданных объектов.

Данные с метками метаданных можно размещать на быстродействующих модулях для более частого использования.

  1. Объекты в СХД Spectrum Scale можно шифровать и сжимать.

***

В целом можно сделать вывод, что объектные системы хранения в настоящее время являются трендом в отрасли хранения и обработки информации. Поскольку отрасль ИТ движется к распределенным системам, в частности к распределенным программно-конфигурируемым дата-центрам SDDC (Software Defined Distributed Data Cenner), то объектные СХД являются адекватным ответом на этот вызов.

Второй тренд, которому в полной мере отвечают объектные СХД, – развитие систем виртуализации. Например, отрасль телекома, оборудование и функции для которой стремительно виртуализируются, является одним из главных потребителей объектных СХД. Развитие Edge Computing, технологии, к которой также в последнее время тяготеет телеком, невозможно без объектных СХД, поскольку использование для этой цели файловых или блочных систем будет приводить к техническим сложностям и финансовым затратам.

Развитие систем анализа больших данных также является одним из драйверов роста объемов использования объектных СХД, по причине их ориентации на хранение и обработку неструктурированных данных.

Сети доставки контента CDN и их рост, показанный на рис. 2, в значительной мере способствуют расширению использования объектных СХД.

Для корпоративного применения объектные СХД очень востребованы. В условиях создания многофилиальных ИТ-систем таких корпораций, как Газпром, РАО ЕЭС и др., применение объектных СХД становится практически безальтернативным выбором по причине их возможностей масштабирования, сегментирования, автоматизации операций и обслуживания, высокой катастрофоустойчивости, а также организации многоуровневого хранения по принципу «горячих» и «холодных» данных.