Введение
В современном мире главным составляющим бизнеса большинства организаций являются колоссальные массивы данных, которые непрерывно увеличиваются. Успех предприятия напрямую зависит от эффективности организации работы с этими массивами.
Проблемы работы с данными
Бизнес-критичные приложения LOB (line of business) внутри организации получают огромное количество данных из различных источников. В итоге данные используют разобщенно на разных площадках предприятия. В связи с этим существует необходимость в обработке источников информации с помощью раздельных систем на границе сети организации (data silos).
Ко всему прочему идентичные данные в разных подразделениях крупной корпорации зачастую используются в различной степени доступности. Это зависит от нагрузки локальных систем, их расположения по отношению к штаб-квартире и центрального облака организации, трафика и еще множества факторов, которые сильно ограничивают доступ к важной информации для некоторых подразделений, в то время как другим подразделениям эти данные доступны.
Проблема выстраивания и управления разобщенными системами (data silos) на площадках корпорации и в облаке порождает проблемы доступности данных и извлечения из них необходимых материалов, «инсайтов» (insights). Требуется оперативный (real-time) доступ и получение нужной информации до того, как она устареет.
Для того чтобы справиться с этой проблемой, большие предприятия зачастую развертывают множество идентичных систем в большом количестве точек. Эти точечные решения создают сложности в управлении данными и делают бесполезными большие массивы информации, которые не были вовремя обработаны. Подобные системы сложны для администрирования и обеспечения информационной безопасности.
К тому же в настоящее время сети предприятий расширяются далеко за границы корпоративного дата-центра (on-premises) и включают в себя множество сайтов во всем мире. Каждое расположение такого сайта может иметь различную архитектуру, типы которой варьируются от архитектуры граничной сети (edge) до центрального облачного дата-центра или корпоративного дата-центра в каждом подразделении. Часто используют гибридный тип архитектуры для центрального облака, а также корпоративного облака. В подобных структурах необходимо поддерживать повсеместно распределенные рабочие нагрузки.
Когда вся инфраструктура находится на площадке предприятия или подразделения, можно полностью контролировать ее и ее ресурсы. С другой стороны публичное облако обеспечивает простоту установки почти безграничных ресурсов по запросу за короткий промежуток времени.
Но даже при такой легкости развертывания, интеграция с IT-системами подразделений корпорации несовершенна и приводит к появлению вышеупомянутых разобщенных систем data silos. Они усложняют и повышают стоимость структуры всей организации.
Чтобы воплотить в жизнь гибридный подход на большом количестве площадок, необходимо обеспечить всеобщую доступность данных внутри всей корпорации независимо от их расположения в указанном подразделении.
Как можно решить возникающие проблемы?
Специально для решения данной задачи была разработана платформа «единой ткани данных» HPE Ezmeral Data Fabric. Объединяя ее с сайтами подразделений, которых зачастую очень много, и корпоративными облаками, все секторы IT-системы организации могут синхронизировать данные независимо от места обработки и получения.
Так различные подразделения и организации образуют единую глобальную «ткань данных» (Data Fabric) с единым пространством имен (namespace). Такая «ткань» может «выплескиваться» в облако, если в подразделении резко возрастает нагрузка. Помимо этого предприятия и их структурные единицы имеют возможность эффективно использовать общее облачное хранилище, не рискуя создать точки «притяжения данных» (data gravity), и развернуть единые системы от граничной сети Edge до облака Cloud.
В каких случаях использование HPE Ezmeral Data Fabric наиболее предпочтительно
Таблица 1. Бизнес-кейсы HPE Ezmeral
Рабочие нагрузки |
Бизнес-кейс |
Технология |
Аналитика множества потоков (Batch Analytics) |
|
|
Аналитика в режиме реального времени |
|
|
Потоковая аналитика |
|
|
Искусственный интеллект и машинное обучение |
|
|
Анализ архитектуры HPE Ezmeral Data Fabric
В отличие от других платформ HPE Ezmeral Data Fabric является набором базовых сервисов, предназначенных для масштабирования данных в объемах эксабайт и увеличения производительности. В то же время сервисы обеспечивают очень высокую степень защиты данных, устойчивость к катастрофам, безопасность и легкость управления в глобальном масштабе.
Общедоступные интерфейсы API и поддержка контейнеров (containers) дают доступ к приложениям на большом количестве распределенных сайтов, а также легкость переноса приложений между разными средами обособленных IT-систем организаций и ее подразделений, на которых работает данная платформа.
Потребители смогут получать доступ к платформе HPE Ezmeral Data Fabric по мере использования. Это обеспечивает простоту установки новых приложений и осуществления новых сценариев применения.

Общая технологическая архитектура HPE Ezmeral
Основные сервисы и технические возможности HPE Ezmeral
Структура модели общей безопасности и единого управления содержит следующие ключевые сервисы:
- Глобальное пространство имен: способность просмотра и запуска множества разрозненных кластеров как одного логического локального кластера.
- Сервис распределенных метаданных: обеспечивает кластер неограниченного объема со множеством узлов, миллиардами файлов, миллионами таблиц и сообщений без специфического ПО и оборудования.
- Масштабное резервирование: после возникновения ЧС работа приложений восстанавливается автоматически. Повторное копирование контейнеров и зеркалирование обеспечивают самый строгий уровень соглашения SLA.
- Постоянная сохранность данных различных типов: единая распределенная «ткань данных» может сохранять различные виды информации (таблицы, файлы, темы писем и т. д.) с передачей данных по разнообразным API.
- Хранение данных по уровням (Tiering) на основе заданных политик: возможность выбрать оптимальный баланс производительности, стоимости и объема выбором хранения, управления и анализа информации по разным уровням: «горячие», «теплые» и «холодные» данные.
- Управление сервисами и их обнаружение: общий набор API, предназначенный для руководства сервисами в глобальном кластере из большого количества многоузловых кластеров.
HPE Ezmeral Data Fabric преобразует разобщенные ранее данные в серьезный бизнес-ресурс за счет обеспечения основных функциональных возможностей для уровневой организации работы «ткани данных» в типичной организации:
Таблица 2. Основные функциональные возможности HPE Ezmeral Data Fabric
Основные функции Data Fabric |
Важность функции |
Уникальная ценность HPE |
Универсальный доступ к данным |
Упрощает доступ к разрозненным данным предприятия |
Широкий выбор API и механизмов доступа от POSIX и NFS до HDFS, Kafka и т. д. |
Независимость от типа рабочей нагрузки |
Приложения для обработки информации требуют применения множества технологий |
Аналитика, машинное обучение, искусственный интеллект, технологии обработки на одной платформе |
Огромное количество пользователей (multi-tenancy) на едином ресурсе для глобальных данных |
Большому числу подразделений необходим безопасный и изолированный доступ к собственным данным |
Подразделения или пользователи имеют возможность получать безопасный доступ лишь к нужной им информации |
Изоляция обработки данных |
Для обработки ресурсов выделяется специальное местоположение |
Работа с данными и их размещение выполняются там, где это оптимальнее делать |
Безопасность данных |
Важны надежность и устойчивость |
Данные для файлов, баз данных, потоков данных надежно защищены |
Производительность данных и управление их уровнем размещения (горячие, теплые, холодные) – «multi-temperature» |
Удовлетворение SLA для необходимой производительности и оптимальной стоимости |
Автоматическое «многотемпературное» управление для регулирования производительности и оптимизации затраченных ресурсов |
Переносимость данных |
Эффективность и высокая скорость переноса данных и приложений в гибридной и многооблачной среде |
Передвижение информации или приложений между различными подразделениями (on-prem), в том числе между площадками и облаком, производится с высокой скоростью и эффективностью |
Глобальное развертывание данных |
Управление глобальными данными как одним ресурсом |
Полномасштабное распределение данных, но при этом устойчивость данных файлов таблиц и потоков данных |
Глобально-распределенная файловая система
Большинству клиентов необходима повсеместно-распределенная масштабируемая площадка для хранения файлов, которая работает круглосуточно.

Глобально-распределенная файловая система
Тома системы файлов HPE Ezmeral структурируются иерархически в глобальном пространстве имен (Global Namespace). Данная структура создает логический глобальный кластер с легким управлением доступом к информации и открытым просмотром данных на различных площадках. Глобальное пространство имен позволяет:
- Избавиться от разрозненных продублированных наборов данных и устранить лишние пересылки, так как они постоянно доступны клиентам и приложениям.
- Получить доступ к информации на любом кластере, как к части локального кластера, вне зависимости от его расположения.
- Назначить задание от одного кластера для выполнения на удаленном кластере.
- Выполнять задачи по управлению всеми кластерами на общем административном интерфейсе.

Принцип работы единой файловой системы HPE Ezmeral
Основные компоненты единой файловой системы HPE Ezmeral Data Fabric делятся на следующие уровни:
- Тома (Volumes): логические структуры, включающие файлы, каталоги и иные объекты. Эти структуры хранят информацию в контейнерах, связанных с данным томом.
- Файлы (Files): файлы автоматически подразделяются на чанки размером в 256 МБ.
- Чанки (Chunks): объем чанка стандартно составляет 256 МБ, но этим параметром можно управлять на уровне каталогов (directory). Далее чанки делятся на блоки в 8 Кб.
- Блоки (Blocks): блоки обладают установленным размером в 8 КБ и записываются в пулы для хранения (Storage Pools).
- Контейнеры (Containers): содержат компоненты только одного тома. Имеют объем до 32 ГБ (можно регулировать).
- Пулы хранения (Storage Pools): собрание дисков, используемых для расположения полос данных по дискам (Raid) на узлах данных.
- Диски (Disks): единицы постоянного хранения (persistent storage) в HPE Ezmeral. Диски бывают физические и виртуальные.
- Узлы данных (Data Nodes): содержат один или более дисков, чаще всего не более 24. Диски бывают двух видов: HDD и SSD.
Подобная структура компонентов HPE Ezmeral обладает следующими преимуществами:
- HPE Ezmeral Data Fabric способна бесконечно масштабироваться.
- Метаданные из каждого файла распределены в полном объеме, потому «узких мест» здесь не может быть.
- В HPE Ezmeral Data Fabric контролируются большие контейнеры 32 ГБ, в отличие от HDFS, где отслеживаются блоки по 256 МБ. Благодаря этому, размер отслеживаемых метаданных можно уменьшить в 100 раз.
- HPE Ezmeral не работает на JVM (Java Virtual Machine), в связи с чем не возникает проблем с Java-приложениями.
- HPE Ezmeral Data Fabric не работает поверх Linux. Она не несет такой служебной нагрузки (overhead), как в HDFS.
- HPE Ezmeral Data Fabric работает на обычном коммерческом оборудовании COTS (Commercial Off The Shelf) и не требует специфических установок для режима повышенной доступности НА (High Availability), потому что в ней нет узлов имен (Name Nodes).
Автоматическое распределение видов данных по уровням (Tiering)
Схема деления данных по уровням: «горячие» (данные с частым доступом), «теплые» (данные с нечастым доступом), и «холодные» (данные с редким доступом) представлены на приведенном ниже рисунке.

Автоматическое расположение типов данных по уровням
Переносимость и запуск LOB-приложений на границе сети предприятия и мульти-облака
Благодаря платформе HPE Ezmeral Data Fabric обеспечивается простота работы с облаками множества крупных мировых провайдеров: AWS, MS Azure, Google Cloud Platform и т. д.
В AWS Marketplace приложения из HPE Ezmeral доступны в течение 60 минут. Кроме того, платформа активно сотрудничает с Azure go-to-market.
Преимущества облачного решения HPE Ezmeral:
- Ваши данные можно просто переместить между облаками крупнейших провайдеров.
- Зеркалирование информации с площадки клиента в облаке обеспечивается постоянно.
- Происходит непрерывная глобальная репликация данных и приложений с единым пространством имен (global namespace). Это обеспечивает возможность запуска приложения в едином контексте на любой платформе предприятия.
- Происходит открытое контролируемое распределение данных по уровням.
- Можно перемещать приложения между облаками разных провайдеров и запускать на границе любой сети организации.
- Имеется возможность моментально перенести рабочую загруженность приложений в облако с зеркалированием и копированием на границе других сетей подразделений при непредвиденных перегрузках в корпоративной сети.
- Платформа позволяет глобально изменить режим считывания данных и перемещать файлы между разными облаками.
- Возможность запуска приложений на границе сети Edge и облака Cloud.

Переносимость и запуск приложений на границе сети предприятия и мульти-облака
HPE Ezmeral Data Fabric для IoT и аналитики на границе сети Edge
Решение HPE Edge используется для локальной аналитики на отдельных площадках и устройствах Edge IoT для снижения нагрузки потоков трафика, направленных в центральное облако. Устройства IoT проводят сбор информации для централизованного анализа, а после возвращают результаты в Edge для оптимизации бизнес-процессов и повышения уровня точности операций.
Стриминг асинхронных сообщений HPE Pub-sub (Publish subscribe) – оптимальный выбор для сообщения между границей предприятия Edge и облаком, куда направляются потоки информации для централизованного анализа. Он происходит через сообщения API Kafka. Стриминг НРЕ подходит для широкого развертывания устройств Интернета Вещей IoT со всеми возможностями для корпораций и развертывания огромных сетей IoT.
Каждая граничная сеть Edge может являться составляющим компонентом «ткани данных» (Data fabric) с присоединением к облаку.

HPE Ezmeral Data Fabric для IoT и аналитики на границе сети Edge
Что необходимо для профессионалов Data Scientist?
Данным специалистам необходимо быстрое внедрение новых технологий, гибкость и высокий показатель эффективности. Для достижения этого в первую очередь нужны интерфейсы программирования приложений API и высокая доступность данных из разнообразных наборов библиотек машинного обучения. Постоянно появляются новые ML-библиотеки. С этой целью в файловой системе HPE Ezmeral предусмотрено множество возможностей.
HPE Ezmeral содержит распространенные интерфейсы HDFS API для анализа данных при помощи Hadoop. Но их бывает мало для работы, в связи с чем в системе есть также интерфейсы POSIX API на базе файловой системы в пространстве пользователя FUSE (Filesystem in Userspace). Они позволяют приложениям и клиентам считывать и записывать информацию напрямую в кластеры НРЕ, как это происходит в файловой системе Linux. Часто это помогает решить проблему, когда библиотека Python не распознает HDFS.
Так как в настоящее время наблюдается активный рост сред разработки инструментов для анализа данных на контейнерах, то доступ к ним предоставляется через контейнеры PACC (Persistent Application Client Container) и DSR (Data Science Refinery). Таким образом часть глобального пространства можно монтировать напрямую в контейнер Docker, чтобы обеспечить общий доступ к разным моделям, артефактам моделей и записным книжкам Docker.

Быстрый доступ к данным машинного обучения
В HPE Ezmeral может выполняться широкий набор определения моделей обучения и развертывания на общей платформе.

Модели обучения и развертывание на единой платформе
Виды режимов развертывания HPE Ezmeral Data Fabric

Модели развертывания HPE Ezmeral Data Fabric
HPE Ezmeral Data Fabric можно использовать, чтобы запускать приложения в дата-центре на площадке предприятия. Также платформа используется между дата-центрами различных пространств для создания внутренней высокой доступности HA (High Availability) и катастрофоустойчивости DR (Disaster Recovery) с функциями зеркалирования, снапшотами и т. д.
Кроме того, HPE Ezmeral Data Fabric можно развернуть в публичном, гибридном или мульти-облаке множества поставщиков услуг публичных облаков (гиперскейлеров), что позволяет переносить данные и приложения между площадками, проводить прямую интеграцию и межоблачные операции (например, копирование информации между облаками разных поставщиков (AWS, MS Azure, GCP и др.)).
Существует возможность развернуть HPE Ezmeral Data Fabric на границе сети (Edge) для локальной обработки данных перед передачей в центральное корпоративное облако, предварительного анализа с помощью искусственного интеллекта или же оффлайнового сбора информации для последующей пересылки проработанных инсайтов.
Решение для границы сети HPE Ezmeral Data Fabric Edge – это такая же программная платформа, с тем лишь отличием, что она работает на кластерах меньшего объема. Это необходимо для сервиса устройств интернета вещей IoT.
Особенность HPE Ezmeral Data Fabric состоит в том, что она поддерживает сохранение состояния (persistence) контейнерного приложения.
И наконец, для достижения наибольшей эффективности (agility), производительности и возможности масштабирования HPE Ezmeral Data Fabric можно развернуть прямо на модуле Kubernetes.
Заключение
Подводя итоги, можно сказать, что одним из главных достоинств HPE Ezmeral Data Fabric является обеспечение надежного и быстрого запуска критичных для бизнеса приложений LOB (Line of Business) на границе сети предприятия или подразделения корпорации. На всем пространстве корпоративных сетей обособленных площадок организации достигается сохранение данных и приложений (persistence). Это является одним из самых необходимых для бизнеса условий, при котором все данные и приложения на всех пространствах корпорации имеют идентичные модели и состояния, а также возможность единообразно и быстро обрабатывать большое количество потоков данных от производственных процессов и оборудования предприятия. Такая система позволяет с высокой скоростью выявлять нарушения, анализировать и давать рекомендации персоналу для предотвращения масштабных аварийных ситуаций.
На этом список преимуществ не заканчивается. Единая файловая система HPE Ezmeral Data Fabric позволяет сделать так, что данные анализа в центральном корпоративном облаке одновременно и повсеместно доступны для всех авторизованных подразделений. Отпадает необходимость постоянных апгрейдов, проблем версионности и рассылок.
В заключение хочется отметить, что действительно уникальная универсальность данного решения проявляется в том, что она поддерживает работы с огромным количеством устройств интернета вещей, поскольку имеет безграничное пространство имен файловой системы. Платформа поддерживает уникальность и доступность всех датчиков в масштабе целой организации.
Некоторые успешные проекты с использованием HPE Ezmeral Data Fabric
-
Сотрудничество с тремя основными европейскими проектами по развитию беспилотных автомобилей.
-
Крупная глобальная нефтегазодобывающая компания.
-
Поставщик услуг безопасности для почти пятидесяти операторов связи.