Введение

В современном мире главным составляющим бизнеса большинства организаций являются колоссальные массивы данных, которые непрерывно увеличиваются. Успех предприятия напрямую зависит от эффективности организации работы с этими массивами.

Проблемы работы с данными

Бизнес-критичные приложения LOB (line of business) внутри организации получают огромное количество данных из различных источников. В итоге данные используют разобщенно на разных площадках предприятия. В связи с этим существует необходимость в обработке источников информации с помощью раздельных систем на границе сети организации (data silos).

Ко всему прочему идентичные данные в разных подразделениях крупной корпорации зачастую используются в различной степени доступности. Это зависит от нагрузки локальных систем, их расположения по отношению к штаб-квартире и центрального облака организации, трафика и еще множества факторов, которые сильно ограничивают доступ к важной информации для некоторых подразделений, в то время как другим подразделениям эти данные доступны.

Проблема выстраивания и управления разобщенными системами (data silos) на площадках корпорации и в облаке порождает проблемы доступности данных и извлечения из них необходимых материалов, «инсайтов» (insights). Требуется оперативный (real-time) доступ и получение нужной информации до того, как она устареет.

Для того чтобы справиться с этой проблемой, большие предприятия зачастую развертывают множество идентичных систем в большом количестве точек. Эти точечные решения создают сложности в управлении данными и делают бесполезными большие массивы информации, которые не были вовремя обработаны. Подобные системы сложны для администрирования и обеспечения информационной безопасности.

К тому же в настоящее время сети предприятий расширяются далеко за границы корпоративного дата-центра (on-premises) и включают в себя множество сайтов во всем мире. Каждое расположение такого сайта может иметь различную архитектуру, типы которой варьируются от архитектуры граничной сети (edge) до центрального облачного дата-центра или корпоративного дата-центра в каждом подразделении. Часто используют гибридный тип архитектуры для центрального облака, а также корпоративного облака. В подобных структурах необходимо поддерживать повсеместно распределенные рабочие нагрузки.

Когда вся инфраструктура находится на площадке предприятия или подразделения, можно полностью контролировать ее и ее ресурсы. С другой стороны публичное облако обеспечивает простоту установки почти безграничных ресурсов по запросу за короткий промежуток времени.

Но даже при такой легкости развертывания, интеграция с IT-системами подразделений корпорации несовершенна и приводит к появлению вышеупомянутых разобщенных систем data silos. Они усложняют и повышают стоимость структуры всей организации.

Чтобы воплотить в жизнь гибридный подход на большом количестве площадок, необходимо обеспечить всеобщую доступность данных внутри всей корпорации независимо от их расположения в указанном подразделении.

Как можно решить возникающие проблемы?

Специально для решения данной задачи была разработана платформа «единой ткани данных» HPE Ezmeral Data Fabric. Объединяя ее с сайтами подразделений, которых зачастую очень много, и корпоративными облаками, все секторы IT-системы организации могут синхронизировать данные независимо от места обработки и получения.

Так различные подразделения и организации образуют единую глобальную «ткань данных» (Data Fabric) с единым пространством имен (namespace). Такая «ткань» может «выплескиваться» в облако, если в подразделении резко возрастает нагрузка. Помимо этого предприятия и их структурные единицы имеют возможность эффективно использовать общее облачное хранилище, не рискуя создать точки «притяжения данных» (data gravity), и развернуть единые системы от граничной сети Edge до облака Cloud.

В каких случаях использование HPE Ezmeral Data Fabric наиболее предпочтительно

Таблица 1. Бизнес-кейсы HPE Ezmeral

Рабочие нагрузки

Бизнес-кейс

Технология

Аналитика множества потоков

(Batch Analytics)

  • • Снижение нагрузки на «склады данных» (Data Warehouse)
  • • Скоринг (кредитный рейтинг, продуктовый рейтинг и пр.)
  • • Распределенное расширение файловых систем
  • • Прикладные интерфейсы системы HDFS (Hadoop Distributed File System) API
  • • Файловые форматы – Parque, Avro, CSV…
  • • Компоненты свободного веб-сервера Apache – HPE Ezmeral Data Fabric Reduce, YARN, Hive, Spark и т. д.

Аналитика в режиме реального времени

  • • Идентификация и предотвращение фрода (fraud)
  • • Аукционы и локализация рекламы
  • • Снижение вероятности потери клиентов
  • • Распределенное расширение баз данных
  • • Быстрая очистка и доступ к необходимым данным, копирование данных таблиц мастер-сайтов
  • • SQL и адаптированные под потребителя API
  • • Компоненты Apache – Drill, Spark

Потоковая аналитика

  • • Подключенные автомобили
  • • Профилактическое обслуживание
  • • Улучшение здравоохранения
  • • Сервис сообщений Kafka
  • • Множество edge-кластеров с локальной обработкой
  • • Центральный кластер (bare metal/cloud) с распределенным хранением
  • • Компоненты Flink, KStream, Apache и т. д.

Искусственный интеллект и машинное обучение

  • • Самоуправляющиеся автомобили
  • • Подбор продуктов
  • • Управление рисками
  • • Распределенная изменяемая файловая система
  • • Интерфейсы POSIX API, кэширование данных
  • • Компоненты Apache – Zeppelin, Pachyderm, Jupyter, Pytorch, TensorFlow

Анализ архитектуры HPE Ezmeral Data Fabric

В отличие от других платформ HPE Ezmeral Data Fabric является набором базовых сервисов, предназначенных для масштабирования данных в объемах эксабайт и увеличения производительности. В то же время сервисы обеспечивают очень высокую степень защиты данных, устойчивость к катастрофам, безопасность и легкость управления в глобальном масштабе.

Общедоступные интерфейсы API и поддержка контейнеров (containers) дают доступ к приложениям на большом количестве распределенных сайтов, а также легкость переноса приложений между разными средами обособленных IT-систем организаций и ее подразделений, на которых работает данная платформа.

Потребители смогут получать доступ к платформе HPE Ezmeral Data Fabric по мере использования. Это обеспечивает простоту установки новых приложений и осуществления новых сценариев применения.

Общая технологическая архитектура HPE Ezmeral

Общая технологическая архитектура HPE Ezmeral

Основные сервисы и технические возможности HPE Ezmeral

Структура модели общей безопасности и единого управления содержит следующие ключевые сервисы:

  • Глобальное пространство имен: способность просмотра и запуска множества разрозненных кластеров как одного логического локального кластера.
  • Сервис распределенных метаданных: обеспечивает кластер неограниченного объема со множеством узлов, миллиардами файлов, миллионами таблиц и сообщений без специфического ПО и оборудования.
  • Масштабное резервирование: после возникновения ЧС работа приложений восстанавливается автоматически. Повторное копирование контейнеров и зеркалирование обеспечивают самый строгий уровень соглашения SLA.
  • Постоянная сохранность данных различных типов: единая распределенная «ткань данных» может сохранять различные виды информации (таблицы, файлы, темы писем и т. д.) с передачей данных по разнообразным API.
  • Хранение данных по уровням (Tiering) на основе заданных политик: возможность выбрать оптимальный баланс производительности, стоимости и объема выбором хранения, управления и анализа информации по разным уровням: «горячие», «теплые» и «холодные» данные.
  • Управление сервисами и их обнаружение: общий набор API, предназначенный для руководства сервисами в глобальном кластере из большого количества многоузловых кластеров.

HPE Ezmeral Data Fabric преобразует разобщенные ранее данные в серьезный бизнес-ресурс за счет обеспечения основных функциональных возможностей для уровневой организации работы «ткани данных» в типичной организации:

Таблица 2. Основные функциональные возможности HPE Ezmeral Data Fabric

Основные функции Data Fabric

Важность функции

Уникальная ценность HPE

Универсальный доступ к данным

Упрощает доступ к разрозненным данным предприятия

Широкий выбор API и механизмов доступа от POSIX и NFS до HDFS, Kafka и т. д.

Независимость от типа рабочей нагрузки

Приложения для обработки информации требуют применения множества технологий

Аналитика, машинное обучение, искусственный интеллект, технологии обработки на одной платформе

Огромное количество пользователей (multi-tenancy) на едином ресурсе для глобальных данных

Большому числу подразделений необходим безопасный и изолированный доступ к собственным данным

Подразделения или пользователи имеют возможность получать безопасный доступ лишь к нужной им информации

Изоляция обработки данных

Для обработки ресурсов выделяется специальное местоположение

Работа с данными и их размещение выполняются там, где это оптимальнее делать

Безопасность данных

Важны надежность и устойчивость

Данные для файлов, баз данных, потоков данных надежно защищены

Производительность данных и управление их уровнем размещения (горячие, теплые, холодные) – «multi-temperature»

Удовлетворение SLA для необходимой производительности и оптимальной стоимости

Автоматическое «многотемпературное» управление для регулирования производительности и оптимизации затраченных ресурсов

Переносимость данных

Эффективность и высокая скорость переноса данных и приложений в гибридной и многооблачной среде

Передвижение информации или приложений между различными подразделениями (on-prem), в том числе между площадками и облаком, производится с высокой скоростью и эффективностью

Глобальное развертывание данных

Управление глобальными данными как одним ресурсом

Полномасштабное распределение данных, но при этом устойчивость данных файлов таблиц и потоков данных

Глобально-распределенная файловая система

Большинству клиентов необходима повсеместно-распределенная масштабируемая площадка для хранения файлов, которая работает круглосуточно.

Глобально-распределенная файловая система

Глобально-распределенная файловая система

Тома системы файлов HPE Ezmeral структурируются иерархически в глобальном пространстве имен (Global Namespace). Данная структура создает логический глобальный кластер с легким управлением доступом к информации и открытым просмотром данных на различных площадках. Глобальное пространство имен позволяет:

  • Избавиться от разрозненных продублированных наборов данных и устранить лишние пересылки, так как они постоянно доступны клиентам и приложениям.
  • Получить доступ к информации на любом кластере, как к части локального кластера, вне зависимости от его расположения.
  • Назначить задание от одного кластера для выполнения на удаленном кластере.
  • Выполнять задачи по управлению всеми кластерами на общем административном интерфейсе.
Принцип работы единой файловой системы HPE Ezmeral

Принцип работы единой файловой системы HPE Ezmeral

Основные компоненты единой файловой системы HPE Ezmeral Data Fabric делятся на следующие уровни:

  • Тома (Volumes): логические структуры, включающие файлы, каталоги и иные объекты. Эти структуры хранят информацию в контейнерах, связанных с данным томом.
  • Файлы (Files): файлы автоматически подразделяются на чанки размером в 256 МБ.
  • Чанки (Chunks): объем чанка стандартно составляет 256 МБ, но этим параметром можно управлять на уровне каталогов (directory). Далее чанки делятся на блоки в 8 Кб.
  • Блоки (Blocks): блоки обладают установленным размером в 8 КБ и записываются в пулы для хранения (Storage Pools).
  • Контейнеры (Containers): содержат компоненты только одного тома. Имеют объем до 32 ГБ (можно регулировать).
  • Пулы хранения (Storage Pools): собрание дисков, используемых для расположения полос данных по дискам (Raid) на узлах данных.
  • Диски (Disks): единицы постоянного хранения (persistent storage) в HPE Ezmeral. Диски бывают физические и виртуальные.
  • Узлы данных (Data Nodes): содержат один или более дисков, чаще всего не более 24. Диски бывают двух видов: HDD и SSD.

Подобная структура компонентов HPE Ezmeral обладает следующими преимуществами:

  • HPE Ezmeral Data Fabric способна бесконечно масштабироваться.
  • Метаданные из каждого файла распределены в полном объеме, потому «узких мест» здесь не может быть.
  • В HPE Ezmeral Data Fabric контролируются большие контейнеры 32 ГБ, в отличие от HDFS, где отслеживаются блоки по 256 МБ. Благодаря этому, размер отслеживаемых метаданных можно уменьшить в 100 раз.
  • HPE Ezmeral не работает на JVM (Java Virtual Machine), в связи с чем не возникает проблем с Java-приложениями.
  • HPE Ezmeral Data Fabric не работает поверх Linux. Она не несет такой служебной нагрузки (overhead), как в HDFS.
  • HPE Ezmeral Data Fabric работает на обычном коммерческом оборудовании COTS (Commercial Off The Shelf) и не требует специфических установок для режима повышенной доступности НА (High Availability), потому что в ней нет узлов имен (Name Nodes).

Автоматическое распределение видов данных по уровням (Tiering)

Схема деления данных по уровням: «горячие» (данные с частым доступом), «теплые» (данные с нечастым доступом), и «холодные» (данные с редким доступом) представлены на приведенном ниже рисунке.

Автоматическое расположение типов данных по уровням

Автоматическое расположение типов данных по уровням

Переносимость и запуск LOB-приложений на границе сети предприятия и мульти-облака

Благодаря платформе HPE Ezmeral Data Fabric обеспечивается простота работы с облаками множества крупных мировых провайдеров: AWS, MS Azure, Google Cloud Platform и т. д.

В AWS Marketplace приложения из HPE Ezmeral доступны в течение 60 минут. Кроме того, платформа активно сотрудничает с Azure go-to-market.

Преимущества облачного решения HPE Ezmeral:

  • Ваши данные можно просто переместить между облаками крупнейших провайдеров.
  • Зеркалирование информации с площадки клиента в облаке обеспечивается постоянно.
  • Происходит непрерывная глобальная репликация данных и приложений с единым пространством имен (global namespace). Это обеспечивает возможность запуска приложения в едином контексте на любой платформе предприятия.
  • Происходит открытое контролируемое распределение данных по уровням.
  • Можно перемещать приложения между облаками разных провайдеров и запускать на границе любой сети организации.
  • Имеется возможность моментально перенести рабочую загруженность приложений в облако с зеркалированием и копированием на границе других сетей подразделений при непредвиденных перегрузках в корпоративной сети.
  • Платформа позволяет глобально изменить режим считывания данных и перемещать файлы между разными облаками.
  • Возможность запуска приложений на границе сети Edge и облака Cloud.
Переносимость и запуск приложений на границе сети предприятия и мульти-облака

Переносимость и запуск приложений на границе сети предприятия и мульти-облака

HPE Ezmeral Data Fabric для IoT и аналитики на границе сети Edge

Решение HPE Edge используется для локальной аналитики на отдельных площадках и устройствах Edge IoT для снижения нагрузки потоков трафика, направленных в центральное облако. Устройства IoT проводят сбор информации для централизованного анализа, а после возвращают результаты в Edge для оптимизации бизнес-процессов и повышения уровня точности операций.

Стриминг асинхронных сообщений HPE Pub-sub (Publish subscribe) – оптимальный выбор для сообщения между границей предприятия Edge и облаком, куда направляются потоки информации для централизованного анализа. Он происходит через сообщения API Kafka. Стриминг НРЕ подходит для широкого развертывания устройств Интернета Вещей IoT со всеми возможностями для корпораций и развертывания огромных сетей IoT.

Каждая граничная сеть Edge может являться составляющим компонентом «ткани данных» (Data fabric) с присоединением к облаку.

HPE Ezmeral Data Fabric для IoT и аналитики на границе сети Edge

HPE Ezmeral Data Fabric для IoT и аналитики на границе сети Edge

Что необходимо для профессионалов Data Scientist?

Данным специалистам необходимо быстрое внедрение новых технологий, гибкость и высокий показатель эффективности. Для достижения этого в первую очередь нужны интерфейсы программирования приложений API и высокая доступность данных из разнообразных наборов библиотек машинного обучения. Постоянно появляются новые ML-библиотеки. С этой целью в файловой системе HPE Ezmeral предусмотрено множество возможностей.

HPE Ezmeral содержит распространенные интерфейсы HDFS API для анализа данных при помощи Hadoop. Но их бывает мало для работы, в связи с чем в системе есть также интерфейсы POSIX API на базе файловой системы в пространстве пользователя FUSE (Filesystem in Userspace). Они позволяют приложениям и клиентам считывать и записывать информацию напрямую в кластеры НРЕ, как это происходит в файловой системе Linux. Часто это помогает решить проблему, когда библиотека Python не распознает HDFS.

Так как в настоящее время наблюдается активный рост сред разработки инструментов для анализа данных на контейнерах, то доступ к ним предоставляется через контейнеры PACC (Persistent Application Client Container) и DSR (Data Science Refinery). Таким образом часть глобального пространства можно монтировать напрямую в контейнер Docker, чтобы обеспечить общий доступ к разным моделям, артефактам моделей и записным книжкам Docker.

Быстрый доступ к данным машинного обучения

Быстрый доступ к данным машинного обучения

В HPE Ezmeral может выполняться широкий набор определения моделей обучения и развертывания на общей платформе.

Модели обучения и развертывание на единой платформе

Модели обучения и развертывание на единой платформе

Виды режимов развертывания HPE Ezmeral Data Fabric

Модели развертывания HPE Ezmeral Data Fabric

Модели развертывания HPE Ezmeral Data Fabric

HPE Ezmeral Data Fabric можно использовать, чтобы запускать приложения в дата-центре на площадке предприятия. Также платформа используется между дата-центрами различных пространств для создания внутренней высокой доступности HA (High Availability) и катастрофоустойчивости DR (Disaster Recovery) с функциями зеркалирования, снапшотами и т. д.

Кроме того, HPE Ezmeral Data Fabric можно развернуть в публичном, гибридном или мульти-облаке множества поставщиков услуг публичных облаков (гиперскейлеров), что позволяет переносить данные и приложения между площадками, проводить прямую интеграцию и межоблачные операции (например, копирование информации между облаками разных поставщиков (AWS, MS Azure, GCP и др.)).

Существует возможность развернуть HPE Ezmeral Data Fabric на границе сети (Edge) для локальной обработки данных перед передачей в центральное корпоративное облако, предварительного анализа с помощью искусственного интеллекта или же оффлайнового сбора информации для последующей пересылки проработанных инсайтов.

Решение для границы сети HPE Ezmeral Data Fabric Edge – это такая же программная платформа, с тем лишь отличием, что она работает на кластерах меньшего объема. Это необходимо для сервиса устройств интернета вещей IoT.

Особенность HPE Ezmeral Data Fabric состоит в том, что она поддерживает сохранение состояния (persistence) контейнерного приложения.

И наконец, для достижения наибольшей эффективности (agility), производительности и возможности масштабирования HPE Ezmeral Data Fabric можно развернуть прямо на модуле Kubernetes.

Заключение

Подводя итоги, можно сказать, что одним из главных достоинств HPE Ezmeral Data Fabric является обеспечение надежного и быстрого запуска критичных для бизнеса приложений LOB (Line of Business) на границе сети предприятия или подразделения корпорации. На всем пространстве корпоративных сетей обособленных площадок организации достигается сохранение данных и приложений (persistence). Это является одним из самых необходимых для бизнеса условий, при котором все данные и приложения на всех пространствах корпорации имеют идентичные модели и состояния, а также возможность единообразно и быстро обрабатывать большое количество потоков данных от производственных процессов и оборудования предприятия. Такая система позволяет с высокой скоростью выявлять нарушения, анализировать и давать рекомендации персоналу для предотвращения масштабных аварийных ситуаций.

На этом список преимуществ не заканчивается. Единая файловая система HPE Ezmeral Data Fabric позволяет сделать так, что данные анализа в центральном корпоративном облаке одновременно и повсеместно доступны для всех авторизованных подразделений. Отпадает необходимость постоянных апгрейдов, проблем версионности и рассылок.

В заключение хочется отметить, что действительно уникальная универсальность данного решения проявляется в том, что она поддерживает работы с огромным количеством устройств интернета вещей, поскольку имеет безграничное пространство имен файловой системы. Платформа поддерживает уникальность и доступность всех датчиков в масштабе целой организации.

Некоторые успешные проекты с использованием HPE Ezmeral Data Fabric

  1. Сотрудничество с тремя основными европейскими проектами по развитию беспилотных автомобилей.

    Организация работы критичных (LOB) приложений и обработка данных с малыми задержками на границе сети предприятия: платформа HPE Ezmeral Data Fabric
  2. Крупная глобальная нефтегазодобывающая компания.

    Организация работы критичных (LOB) приложений и обработка данных с малыми задержками на границе сети предприятия: платформа HPE Ezmeral Data Fabric
  3. Поставщик услуг безопасности для почти пятидесяти операторов связи.

    Организация работы критичных (LOB) приложений и обработка данных с малыми задержками на границе сети предприятия: платформа HPE Ezmeral Data Fabric