Когда моего знакомого назначили IT-директором, коллеги, поздравляя с назначением, подарили ему бубен. По сию пору этот музыкальный инструмент порой остается единственным средством поиска неполадок, когда все возможные варианты перепробованы, а система все равно не работает. Такой стиль работы по-английски называется guess-work – «работа по догадке, наитию». Если у специалиста за плечами большой опыт troubleshooting, такой подход иногда срабатывает. Но, бывает, без бубна никак не обойтись.

Для избежания подобных ситуаций в НРЕ и было создано решение InfoSight.

Назначение

Как говорят, «лучшая война – та, которая не случилась». Можно ли предотвратить неисправность в IT-системе до ее возникновения? Да – имея в распоряжении такие мощные «орудия», как анализ больших данных, искусственный интеллект и машинное обучение, более 90 % IT-проблем можно предотвратить до их возникновения.

Именно с этой целью компания HPE разработала систему InfoSight с использованием этих цифровых технологий. Ее основное предназначение – освободить IT-специалистов от кошмара бессонных ночей и потерянных выходных, от постоянного стресса и работы в режиме «пожарной команды», высвободить их рабочее время от многих часов анализа таблиц и графиков параметров работы IT-системы. А также от напряженного ожидания ответа техподдержки вендора, когда через час нужно класть отчет на стол начальнику, а система «зависла», и другой подобной «романтики».

HPE InfoSight – это реализация невероятной идеи: система работает, сама себя администрирует, следит за нормальным состоянием параметров своей работы и сама себя оптимизирует. И если что-то пошло не так, заранее предупреждает о том, что нужно настроить тот или этот параметр, о том, что скоро закончится свободная память, и она собирается ее запросить из пула ресурсов, и спрашивает, правильно ли она поступает, или у господина специалиста есть иное мнение.

Использование искусственного интеллекта для упрощения работы оператора в дата-центре

Использование искусственного интеллекта для упрощения работы оператора в дата-центре

Архитектура

HPE InfoSight – это облачная архитектура искусственного интеллекта (ИИ). С разнообразных датчиков телеметрии, работающих на всем парке развернутого оборудования серверов НРЕ, систем хранения и сетевого оборудования, а также программных платформ виртуализации, баз данных, различных корпоративных систем постоянно снимается значительный поток информации. Эти данные анализируются в облачной платформе ИИ, который обучается на основе этих данных и помогает предотвратить нарастающие проблемы.

Архитектура HPE Infosight

Архитектура HPE Infosight

По данным НРЕ, к облачному ИИ InfoSight в октябре 2019 года было подключено более 150 тыс. систем (серверов и СХД НРЕ). С 2010 года анализируются данные с более чем 1,25 трлн. точек съема данных. Работа InfoSight помогла сэкономить более 1,5 млн. часов работы IT-специалистов.

Каждую секунду искусственный интеллект InfoSight обучается на данных телеметрии. На их основе составляется представление об идеальной рабочей среде для каждого типа трафика и приложения. На основе постоянно совершенствующихся алгоритмов машинного обучения работают движки предиктивной аналитики и рекомендаций. Благодаря их данным и выявленным рутинным процессам (pattern) на ранних стадиях распознается ненормальное поведение элементов системы. После этого могут быть либо предприняты автоматизированные действия по коррекции ситуации, либо выданы рекомендации для персонала клиента по устранению аномалий.

Такая система – мечта для любого специалиста техподдержки, позволяющая ему навсегда избавиться от ситуаций, когда нужно, бросив текущую работу, срочно куда-то бежать, чтобы устранить возникшую проблему. Практически обо всех возникающих проблемах система либо предупредит, либо сама же их и устранит.

В особо сложных случаях, когда HPE InfoSight не может самостоятельно разрешить проблему, последняя передается инженерам поддержки HPE, которые помогают клиентам быстро восстановить работоспособность системы. Однако InfoSight обучается на каждом таком случае и модифицирует алгоритм предиктивного анализа для будущих подобных случаев.

Поддерживаемая инфраструктура HPE InfoSight

Решение HPE InfoSight for Servers

Решение HPE InfoSight for Servers имеет три основных компонента: HPE InfoSight, AHS и HPE iLO.

Решение HPE InfoSight for Servers

Решение HPE InfoSight for Servers

  1. НРЕ InfoSight

Комбинация InfoSight, системы мониторинга параметров AHS (Active Health System) и процессора считывания параметров iLO (Integrated Lights Out) помогает распознавать и предотвращать проблемы в серверах ProLiant Gen10, Gen9, Gen8, Synergy и Apollo с iLO 4 и iLO 5.

  1. AHS (Active Health System)

AHS – это аналог «черного ящика» самолета, непрерывно записывающего тысячи параметров работы системы. Важно заметить, что хотя решение InfoSight for Servers – новое, однако запись параметров состояния, телеметрии и конфигурация на уровне индивидуального сервера уже существовала в серверах Gen8 с iLO 4. Новым в решении InfoSight for Servers является автоматический сбор данных для облачной платформы InfoSight с искусственным интеллектом.

AHS собирает, записывает и маркирует по времени следующие данные:

  • изменения в оборудовании (добавление, удаление, замена, или перемещение внутри системы);
  • апдейты встроенного ПО (Firmware), драйверов и другого ПО;
  • данные телеметрии с периодическим диагностическим сканированием параметров работы элементов системы.

AHS собирает эти данные от различных устройств и дополнительного оборудования, установленного в серверах, включая контроллеры Smart Array, источники питания, память, встроенный администратор и многое другое.

AHS не собирает данные о персональных данных, информацию о сетевой безопасности или данные приложений.

AHS предоставляет данные об истории системы, которые используются техподдержкой НРЕ в случае возникновения проблем. При контакте с техподдержкой НРЕ, они, скорее всего, попросят предоставить им лог-журнал AHS сервера.

НРЕ или уполномоченные организации используют эти технические данные для разрешения более сложных проблем при помощи анализа информации о предыдущих подобных случаях.

Больше года назад HPE выпустила версию программы для просмотра (viewer) для пользователей, чтобы улучшить качество обслуживания, идентификации и диагностирования проблем. Это оказалось очень эффективным, и сейчас этот инструмент под названием AHSV (Active Health System Viewer) используется клиентами для экспорта данных из AHS.

В InfoSight for Servers, данные AHS собираются автоматически и доступны для просмотра через панель интерфейса InfoSight.

Работа InfoSight вместе с AHS позволило HPE использовать машинное обучение на основе данных AHS. Кроме того, аналитический движок распознавания неисправностей может рекомендовать действия по их устранению на основе лучших образов предыдущего опыта.

  1. iLO (Integrated Lights-Out)

iLO – это управляющий процессор HPE, встроенный в серверы ProLiant, Apollo и Synergy. iLO и AHS тесно интегрированы друг с другом, они собирают и записывают тысячи параметров и данных диагностической телеметрии. Доступ к данным AHS можно получить только через iLO.

Функции iLO

  • Соединение InfoSight с серверами в дата-центре клиента
  • Масштабирование до 10 000 серверов
  • Базовая и детальная инвентаризация серверов HPE
  • Управление встроенным ПО и драйверами, апдейтами, отчетами
  • Доступна для виртуальных устройств на VMware ESXi, Microsoft Hyper-V и Red Hat KVM
  • Автоматический апгрейд виртуального устройства iLO Amplifier Pack virtual (v1.50 и позднее)

Функционал НРЕ InfoSight

В таблице приведен список функций, который доступен в InfoSight на май 2020 г.

Таблица 1. Список функций InfoSight

Глобальный мониторинг и видимость

Глобальная инвентаризация серверов в дата-центрах

Панель наблюдения за глобальным состоянием системы (wellness)

Глобальная операционная панель

Глобальное обнаружение сигнатур и обучение на их основе

Глобальный отчет по гарантии и поддержке серверов

Детализированная инвентаризация сервера с отчетом (оборудование, опции, firmware, драйверы и ПО)

Автоматический сбор данных телеметрии датчиков без использования ресурсов хоста

Оповещение по e-mail о состоянии и нештатных ситуациях

Предупреждения о нештатных ситуациях и аналитика

Предиктивная аналитика возможных отказов частей сервера

Аналитика возможных проблем в firmware, драйверов, ОС и системного ПО

Оповещение по e-mail о состоянии и нештатных ситуациях

Аналитика по состоянию собственного оборудования (On-premises)

Извещения по безопасности и аналитика

Отражение атак Ransomware (С использованием функции Server System Restore в iLO Amplifier Pack в серверах Gen10)

Обнаружение уязвимости в безопасности (firmware и драйверы)

Обнаружение атак на ввод Login

Обнаружение DoS (Denial of Service)

Обнаружение общих рисков состояния сервера (только для Gen10)

Оповещение по e-mail об угрозах безопасности

Планирование инфраструктуры

Планирование обновления сервера Server refresh (скоро будет)

Поддержка планирования обновления

Безопасность и приватность

Наиболее безопасный стандартный сервер (Gen10)

Соответствие GDPR

Соответствие стандартам, таким как ISO 27001 (International Standardization Organization) и NIST (National Institute of Standards and Technology)

Никакой персонально идентифицируемой информации не собирается

Телеметрия отдельного сервера и данные с сенсоров посылаются в НРЕ через безопасный агрегатор (данные серверов не экспонируются наружу)

Данные телеметрии и сенсоров пересылаются в HPE чрез протокол TLS over HTTPs

Управляемый доступ клиента к серверам (только для реселлеров, партнеров и техподдержки HPE)

Поддержка

Создание кейса вручную (при наличии гарантии или действующего контракта поддержки)

Доступ техподдержки HPE к файлам AHS на всех серверах (при наличии гарантии или действующего контракта поддержки)

Отмена кейса при помощи предварительных предупреждающих сообщений и последующего самостоятельного устранения неисправности клиентом

Мониторинг и видимость дата-центра

Один пакет iLO Amplifier Pack масштабируется на 10 тыс. серверов

iLO Amplifier Pack доступен для виртуальных устройств VMware ESXi, Microsoft Hyper-V и KVM

Автоматическое распознавание серверов HPE с iLO 4 и iLO 5

Автоматический сбор данных телеметрии и сенсоров с серверов HPE и передача в InfoSight в виде файлов AHS

Проверка состояния серверов каждые 10 минут и передача информации в HPE InfoSight

Инвентаризация серверов (оборудование и ПО) с отчетами

Панель наблюдения за состоянием с предупреждениями на e-mail

Создание и управление логическими группами серверов

Самостоятельный апгрейд виртуального устройства iLO Amplifier Pack virtual (v1.50 и позднее)

Управление встроенным ПО (Firmware) и драйверами

Поставляется в виде встроенного ПО и драйверов, проверенных HPE (SPP)

Одновременное обновление встроенного ПО и драйверов (с использованием SPP и встроенного SUM)

ПО, защищенное от вмешательства и обновления драйверов

Соответствие Firmware и драйверов текущему состоянию и отчет

Сохранение и восстановление firmware и драйверов для сокращения времени обслуживания (только Gen10 only)

Безопасность

Аутентификация пользователей через Microsoft Active Directory с использованием LDAP

Предотвращает неавторизованную модификацию firmware и драйверов, когда iLO находится в режиме повышенной безопасности (CNSA или FIPS) (только Gen10)

Восстановление сервера с поврежденным или скомпрометированным firmware с помощью Server System Restore (firmware, BIOS, ОС, приложения и данные) (только Gen10)

Экономические преимущества

  • Экономия 85 % времени на поиск и устранение неисправностей в СХД
  • Экономия до 79 % операционных расходов (по данным внутреннего аудита НРЕ)
  • Автоматическое обнаружение, регистрация и разрешение до 86 % проблем (по данным исследования НРЕ для СХД Nimble.

Сравнение с конкурентами

По сравнению с похожими решениями конкурентов для HPE InfoSight можно указать следующие преимущества:

  • Самый большой собираемый объем метрик от более чем 15 тыс. клиентов HPE.
  • Данные остаются в системе для обучения алгоритмов более 6 лет – дольше, чем у аналогичных систем.
  • Разнообразие данных:
    • Сенсоры, активность per-volume и per-vmdk;
    • Переменные конфигурации;
    • Журнал событий.
  • Период анализа: 1 год, период хранения – более 6 лет.
  • Сенсоры закладываются в оборудование в процессе разработки (а не после).
  • Ключевые метрики собираются по всему парку оборудования: СХД, хосты, виртуальные машины и приложения.
  • Инженеры техподдержки высокого уровня индивидуально выделены для различных доменов IT-системы клиента. Они стремятся избежать возникновения нештатных ситуаций, автоматизации их устранения и проактивного предотвращения неполадок в своих доменах.
  • Использование разнообразных техник data science для обеспечения оптимальной работы инфраструктуры на протяжении всего жизненного цикла: от начального планирования, развертывания, внедрения и обслуживания.
  • Постоянное совершенствование моделей на основе обучения на базе данных установленной базы.
  • Предоставление точных и актуальных рекомендаций:
    • Точная модель массива хранения в случае необходимости апгрейда контроллера;
    • Точный размер требуемого кэша;
    • Точное установление причин задержек в массиве;
    • Величины полосы пропускания, потребную для репликации;
    • Перечень незащищенных томов.

В 2019 году решению InfoSight была присуждена награда CRN Tech Innovator Awards IT-портала CRN, когда редакторы CRN оценили сотни продуктов с использованием таких критериев как технологические усовершествования, уникальность функционала и возможности в разрешении проблем клиентов в решении IT-проблем.

Примеры применения

В таблице показаны некоторые крупные клиенты НРЕ, в оборудовании которых работает платформа InfoSight, в различных отраслях экономики и регионах мира.

Таблица 2. Некоторые крупные клиенты НРЕ InfoSight (источник: НРЕ)

HPE InfoSight – танцев с бубном больше не будет

Basefarm (Европа) – провайдер профессиональных услуг (managed services) по обработке данных. Необходимость управлять огромными потоками данных вынуждает Basefarm переосмыслить традиционную концепцию центра обработка данных (ЦОД). Объем данных, которые нужно обрабатывать каждый день, вырос с одного петабайта несколько лет назад до 20 петабайт сегодня. В дата-центре Basefarm установлены 70 массивов HPE 3PAR, на которых работает виртуальная инфраструктура провайдера, от виртуальных машин до резервирования. Система должна обеспечивать SLA для пользователей вне зависимости от их местоположения. При помощи ПО HPE 3PAR Peer Persistence были улучшены параметры работы СХД в дата-центрах, а при помощи предиктивной аналитики HPE InfoSight удалось значительно снизить частоту отказов. HPE InfoSight работает на уровне виртуальных машин, что позволило повысить быстродействие на 80 %.

Bendigo Telco (Азия) – оператор связи, эксплуатировавший большой «зоопарк» разнообразных платформ оборудования и ПО с разными архитектурами. Это приводило к избыточному потреблению ресурсов, прежде всего СХД. Причем каждое решение было необходимо поддерживать отдельно, часто с использованием выделенного персонала. Консолидация СХД в массив SSD на HPE Nimble, позволило Bendigo Telco значительно упростить предоставление услуг для своих клиентов, повысить гибкость и быстродействие услуг для различных типов трафика и снизить расходы.

  • Объем данных в рабочей области был снижен в 9 раз, а в области резервирования – в 4 раза.
  • Время восстановления данных из резерва для заказчиков услуги BaaS (Backup as a Service) было снижено в 3 раза.
  • Площадь, занимаемая СХД, была сокращена на 3,5 стандартных статива, что дало экономию операционных расходов 8000 долларов в месяц.
Результаты внедрения HPE InfoSight у оператора Bendigo Telco

Результаты внедрения HPE InfoSight у оператора Bendigo Telco

Andhra Pradesh & Telangana Co-Operative Banks (Индия) – СХД в группе банков должна была обрабатывать непредсказуемую по объему нагрузку и при этом иметь доступность «шесть девяток» (99,9999 %). Решение HPE 3PAR позволило достигнуть высокой доступности за счет SSD-накопителей, где не требуется миграция данных через несколько внутренних страниц в пространстве памяти. Платформа HPE InfoSight позволила предсказывать и предотвращать проблемы в инфраструктуре до их возникновения, что позволило еще больше повысить доступность. Это дало возможность банкам Andhra Pradesh & Telangana существенно снизить объем СХД в дата-центре, занимаемую площадь и тем самым сократить операционные расходы.

  • Снижение стоимости СХД за счет исключения нулей в строках (Zero Detect).
  • Дедупликация и компрессия позволили сократить объем хранимых данных и тем самым повысить производительность (Deduplication и Compression).
  • Переупаковка нескольких страниц данных в одну позволила еще больше повысить производительность системы и снизить требуемый объем хранимых данных (Data Packing).
Синергия факторов, приведших к сокращению расходов и повышению производительности СХД в банках Andhra Pradesh & Telangana

Синергия факторов, приведших к сокращению расходов и повышению производительности СХД в банках Andhra Pradesh & Telangana

Бубен больше не нужен

Однажды на конференции известного IT-вендора после того, как эксперт рассказал об автоматизации операций в IT-системе, прозвучал вопрос от инженера примерно такого смысла: «Вот, мол, вы долго обучали людей, организовали развитую систему подготовки кадров, сертификации специалистов различных уровней, а теперь вы хотите порушить вами же созданное и заставить людей тупо выполнять рекомендации интеллектуальной системы, а многих из них вообще лишить работы? Зачем нужны все эти навороченные автоматизированные системы, если обученные вами же люди так хорошо со всем этим справлялись?». Поневоле вспоминается восстание луддитов, которым не понравились автоматические ткацкие станки в конце XVIII века.

Мы живем во время, когда уже нельзя полагаться только на труд IT-специалистов высокого уровня. Объемы обрабатываемых данных, требования к скорости их обработки, надежности и доступности растут в геометрической прогрессии. В этих условиях, в вопросах обеспечения надежности и безопасности полагаться на работу по наитию, «guess-work», что на сленге российских IT-инженеров называется «танцы с бубном», означает подвергнуть бизнес организации неприемлемому риску. А также обречь бизнес на невероятное раздувание расходов на IT-ресурсы, которые можно было бы не приобретать, оптимизировав работу IT-системы при помощи облачной аналитической системы с машинным обучением. Кроме того, существенно сократить операционные расходы за счет возможности предотвращения проблем до их возникновения. А если проблема все-таки возникла, на основе накопленного в искусственном интеллекте опыта быстро выдать рекомендации, как оперативно и эффективно устранить проблему, не нарушив никаких бизнес-процессов.

Именно с этой целью и была создана платформа HPE InfoSight. Это одна из первых систем такого рода в IT-индустрии. Она имеет неоспоримые преимущества перед аналогичными системами, прежде всего, за счет самого большого объема накопленных данных и опыта по устранению проблем. Кроме того, по спектру функционала HPE InfoSight также значительно опережает подобные системы, которые были созданы позже нее.

Подытоживая сказанное, приведем данные по исследованию эффективности InfoSight, проведенному HPE.

Результаты исследования НРЕ по эффективности InfoSight

Результаты исследования НРЕ по эффективности InfoSight