Если сделать поиск по изображениям, то на запрос «file storage» одной из первых выдается примерно такая картинка:

Каталог с папками

Система хранения файлов (в смысле, папок)

Однако именно эта картинка наилучшим образом отражает принцип файлового хранения данных. Если сравнивать его с блочным хранением, то это будет хранение по страницам (блоки данных), а не по папкам с документами (файлы).

Виды хранения данных

Существуют три способа хранения данных: блочный, файловый и объектный. Они организуют и предоставляют данные различными способами, каждый из которых имеет свои возможности и ограничения.

Блочное хранилище разбивает данные на блоки (chunks) одинакового размера, организованные по-разному, то есть, разные блоки могут храниться в разных массивах данных.

Файловое хранилище организует и предоставляет данные в виде иерархии файлов в папках.

Объектное хранилище управляет данными при помощи т.н. «метаданных» – коротких информационных «наклеек» на целостном массиве данных (текстовый документ, видеоролик, электронная таблица и пр.), по которому его можно довольно легко найти в общем хранилище.

Что такое файловая система хранения

Файловая система хранения больше всего похоже на то, как мы видим информацию в своем компьютере: т.е. в виде файлов во вложенных папках. Путь к файлу в файловом хранилище может быть довольно длинным, сквозь глубокую иерархию вложенных друг в друга папок.

Доступ к данным в файловом хранилище осуществляется по file ID, который содержит имя сервера, путь к директории (папке) и имя искомого файла (server name + directory path + filename) в сети общего пользования NAS (Network Attached Storage). По file ID сервер системы хранения находит данные на диске в NAS.

Протоколы

Наиболее употребительными протоколами доступа к файлам через NAS являются NFS (Network File System) и CIFS (Common Internet File System).

NFS используется в операционных системах Unix и Linux. CIFS используется в операционной системе Windows и является публичным (открытым) вариантом более специализированного протокола SMB (Server Message Block), разработанного компанией Microsoft, который использует сетевой протокол TCP/IP.

Сервер системы файлового хранения использует блочное хранилище внутри локальной файловой системы для организации файлов, а пользователь имеет дело только с вышележащим протоколом, который определяет путь к файлу. Атрибуты файла, такие как тип (расширение), размер, дата создания и модификации сохраняются в файловой системе.

Ограничения

Ограничениями хранения и доступа к файлам через NAS являются пределы масштабирования нижележащей файловой системы и неспособность распределять рабочую нагрузку на несколько файловых серверов. То есть масштабирование системы как правило предполагает наращивание ресурсов файлового сервера, а не установку еще одного или нескольких таких же.

Организация файловых систем хранения

Файлы в файловых системах хранятся в директориях (каталогах, «папках»). В директории хранится информация о файлах: их атрибутах, местоположении и владельце. Большая часть этой информации, особенно та, которая непосредственно относится к хранению, управляется файловой системой. Сама директория – это тоже служебный файл, к которому можно получить доступ при помощи различных административных процедур.

В директории может храниться следующая информация:

  • имя файла;
  • тип файла;
  • адрес (путь к файлу);
  • текущая длина файла;
  • максимальная длина файла;
  • дата и время последнего доступа к файлу;
  • дата и время последнего изменения файла;
  • идентификатор собственника файла (User ID, Owner ID);
  • информация о защите файла.
  • В директориях могут выполняться следующие операции:
  • поиск файла;
  • создание файла и присвоение имени;
  • удаление файла;
  • составление списка файлов в директории;
  • переименование файла;
  • перенос в другую файловую систему.

Уровни директорий

Одноуровневые директории

В одноуровневых директориях файлы доступны всем пользователям.

Одноуровневые директории

Одноуровневые директории

Однако в таких директориях пользователи не могут иметь одно и то же имя для разных файлов.

Двухуровневые директории

В двухуровневой модели файловой системы организуется индивидуальный доступ разных пользователей к директориям. Разные пользователи не могут видеть файлы других пользователей.

В этом случае разные пользователи могут иметь файлы с одинаковыми именами. Поиск файлов такой модели более эффективен, нежели в одноуровневой.

Двухуровневые директории

Двухуровневые директории

Древообразная модель директорий

В такой модели директории могут быть организованы в виде дерева.

Древообразная модель директорий

Древообразная модель директорий

Методы размещения файлов

Непрерывное размещение

При непрерывном размещении (Continuous Allocation) файла в момент его создания выделяется набор последовательных блоков. В таблице размещения файлов (file allocation table) нужно указать только номер начального блока и длину файла. Этот метод лучше всего подходит для последовательного размещения отдельных файлов в пустом хранилище.

Непрерывное размещение файлов

Непрерывное размещение файлов

Преимущества: при таком размещении можно сразу прочитать несколько блоков, что обеспечивает высокую скорость ввода-вывода. Легко также получать доступ к отдельным блокам. Например, если файл начинается на блоке b, и нам нужен блок i, то его положение в хранилище вычисляется просто как b + i – 1.

Недостатки: файлы могут быть фрагментированы, если длина файла больше, чем число доступных последовательных блоков. При этом нужно совершать дополнительные операции на поиск кусков и составлению из них целостного файла. Поэтому используются специальные алгоритмы, которые укладывают файлы в хранилище – примерно так, как сельдей в бочку на рыбозаводе – без промежутков. Тем самым мы сокращаем требуемый объем хранилища.

Однако выполнение таких ненужных с точки зрения основного бизнеса задач снижает быстродействие системы в целом и приводит к нерациональному расходу ресурсов. Кроме того, при непрерывном размещении требуется объявлять длину файла в момент его создания.

Цепочное размещение

При цепочном размещении (Linked Allocation), еще его называют Non-contiguous allocation, размещение производится поблочно. При этом не требуется, чтобы блоки в файле были последовательными по номерам. Каждый блок при этом будет содержать указатель на следующий блок цепочки, в котором продолжается файл.

Преимущества: Таблица размещения файлов требует только одного ввода для каждого файла, где указан номер начального блока и общая длина файла. Блоки могут быть непоследовательными. Увеличение длины файла делается простым добавлением свободных блоков. При таком методе размещения фрагментация файлов не имеет большого значения.

Недостатки: последние блоки файлов могут быть не полностью занятыми. Требуется дополнительная информация (overhead) на управление указателем на следующий блок в каждом предыдущем блоке. Если указатель теряется, то файл может быть разорван и станет недоступным.

Индексированное размещение

Индексированное размещение (Indexed Allocation) призвано решить проблемы непрерывного и цепочного размещения. В этом случае таблица размещения файлов содержит отдельный одноуровневый указатель (индекс) для каждого файла. В индексе последовательно указаны номера блоков, в которых размещен файл. При этом блоки могут иметь как одинаковый размер, так и различные размеры. При этом исключается фрагментация файлов, в то время как размещение при помощи блоков различного размера исключает незанятые «хвосты» в последнем блоке каждого файла, если файл не умещается в определенное число блоков. Этот метод размещения файлов обеспечивает как последовательный, так и прямой доступ к файлам и в настоящее время является наиболее популярным.

Индексированное размещение файлов

Индексированное размещение файлов

Управление свободным пространством диска

Свободным пространством диска, как и занятым, тоже нужно управлять. Для эффективного размещения файлов во всех перечисленных выше методах требуется знать, какие блоки на диске доступны, а какие – заняты. Поэтому необходимо иметь также таблицы размещения дисков (disk allocation table), как и таблицу размещения файлов (file allocation table).

Имеются следующие методы управления свободным пространством диска.

Битовые таблицы (Bit Tables). В этом методе используется вектор, который содержит по одному биту для каждого блока на диске. Если бит равен 0, то это блок свободен, если 1, то занят.

Такой вектор может иметь вид: 00011010111100110001

Список свободный блоков (Free Block List). В этом методе каждому блоку назначается последовательный номер и список номеров свободных блоков сохраняется на специально выделенном блоке на каждом диске.

Преимуществом обоих методов является относительная легкость нахождения последовательной группы свободных блоков. Поэтому и тот, и другой хорошо подходят для всех вышеперечисленных методов размещения файлов.

Достоинства и недостатки

Самым большим преимуществом файловых систем хранения является их интуитивная понятность: интерфейс выглядит также, как и файловый менеджер на любом компьютере, и принцип иерархичности (вложенность) папок с файлами тоже взят из обыденной жизни.

Система достаточно легко масштабируется (до определенных пределов). Совместный доступ пользователей внутри масштабов системы практически ничем не ограничен. К достоинствам также можно отнести относительно невысокую цену.

Файлы в файловой системе ищутся достаточно быстро, если ее масштаб не запределен. Система имен файлов позволяет разным собственникам иметь файлы с одинаковым именем – с точки зрения системы это будут разные файлы – даже в том случае, если содержимое файлов с разными Owner ID будет одинаковым.

Файлы удобно группировать по типам: например, все программы, написанные на языке Java, все игровые файлы и пр.

К недостаткам файловой системы хранения следует отнести наличие определенных пределов масштабирования. При росте объема системы навигация становится более сложной, а время доступа к файлам увеличивается. То есть файлы будут открываться медленнее.

Бизнес-задачи

Файловая система хранения хорошо подходит для доступа к общим файлам и каталогам через локальную компьютерную сеть предприятия LAN (local area network) или WAN (wide area network). Поэтому практически во всех корпоративных ИТ-системах в том или ином виде можно обнаружить примеры эксплуатации файловых хранилищ:

Однако быстродействия файловых систем, особенно при больших масштабах, может не хватить для некоторых бизнес-критичных задач, где малое время отклика системы имеет значение для качества бизнес-операций. Например, это могут быть системы компьютерного зрения, системы анализа больших данных и бизнес-аналитики, а также нейросети, системы интеллектуальной видеоаналитики и прочие инновационные цифровые технологии. В таких случаях иногда бывает целесообразнее использовать блочные хранилища, которые имеют меньшее время отклика при больших объемах хранения.

Обзор продуктов NAS

Системы хранения Synology RS

Synology FlashStation FS6400 – это стоечный сервер 2U, предназначенный для чувствительных к задержкам задач с высокой интенсивностью операций ввода-вывода. Он хорошо подходит для постобработки мультимедийных файлов, развертывания виртуальных машин, обработки онлайн-транзакций и приложений баз данных.

Synology FlashStation FS6400

Synology FlashStation FS6400 (источник: Synology)

  • Свыше 240 000 операций ввода-вывода в секунду при произвольной записи блоками по 4 KБ по протоколу iSCSI, сверхвысокая производительность с низким уровнем задержки.
  • Два восьмиядерных процессора Intel® Xeon® Silver и ОЗУ ECC RDIMM 32 ГБ DDR4 (с возможностью расширения до 512 ГБ).
  • Встроенные порты 10GBASE-T и возможность установки дополнительных сетевых карт 10GbE/25GbE/40GbE.
  • Комплексное решение виртуализации для VMware® vSphere, Windows Server® Hyper-V™, Citrix® XenServer и OpenStack® Cinder.
  • Усовершенствованная файловая система Btrfs с возможностью создания 65 000 снимков системы и 1024 снимков каждой общей папки.
  • Масштабирование до 72 дисков с подключением 2 модулей расширения Synology RX2417sas.

Подходит для:

  • постобработки мультимедиа;
  • виртуальных машин;
  • обработки онлайн-транзакций;
  • приложений баз данных.

Synology SA3200D позволяет упростить и централизовать инфраструктуру управления данными в форм-факторе 2U. Избыточность контроллеров хранилища на базе Synology High Availability автоматически сокращает время простоя менее, чем до 1 минуты.

Благодаря архитектуре с двумя контроллерами Synology SA3200D обеспечивается выполнение операций и основных бизнес-функций в случае аварий или незапланированных ситуаций, приводящих к отключению критически важных систем. Аппаратная избыточность контроллеров, источников питания и вентиляторов устраняет возможность сбоев в работе. SA3200D работает на базе интуитивно понятной и многофункциональной операционной системы DiskStation Manager (DSM), которая обеспечивает комплексную защиту сети, файловых служб и приложений.

 Synology SA3200D

Synology SA3200D (источник: Synology).

  • Конфигурация с двумя контроллерами «активный-пассивный» в одном корпусе обеспечивает максимальную доступность служб и аварийное переключение на уровне минут.
  • Высокодоступная инфраструктура с конкурентоспособным соотношением цены и производительности – 0,05 доллара США на гигабайт.
  • Масштабируемая архитектура общих ресурсов хранения с емкостью более 500 ТБ и минимальным воздействием на производительность.
  • Механизм автоматического аварийного переключения обеспечивает защиту служб в режиме реального времени и предотвращает сбои в работе.
  • Простое развертывание и управление службами данных с помощью ОС DiskStation Manager (DSM), которая обеспечивает унифицированную работу с платформами Synology и поддержку комплексных программных приложений.
  • Сертифицированное решение виртуализации с защитой рабочих нагрузок, не требующей лицензии.

Synology SA3200D – сертифицированное решение по виртуализации с поддержкой VMware® vSphere™, Microsoft® Hyper-V®, Citrix® XenServer™ и OpenStack Cinder. Система поддерживает протоколы iSCSI и NFS и интегрируется с VMware VAAI и Microsoft ODX.

Это позволяет ИТ-администраторам эффективно выполнять развертывание и упрощает операции хранения в различных средах виртуализации. ИТ-администраторы могут эффективно управлять виртуализированными рабочими нагрузками с помощью встроенных функций DSM и подключаемых плагинов для сред VMware и Windows. Такие функции, как быстрое клонирование, NFS v4.1 и Thin Provisioning, обеспечивают большую гибкость для удовлетворения потребностей администрирования.

Без дополнительных лицензионных платежей виртуализированная рабочая нагрузка может быть дополнительно защищена полноценным набором приложений для защиты данных, включая Synology Snapshot Replication, Hyper Backup и Active Backup for Business (в соответствии со сценарием защиты).

Система хранения Synology RackStation RS820+/RS820RP+ – это сетевая СХД для централизованного управления данными. Устройство RS820+/RS820RP+ оснащено четырехъядерным процессором и обеспечивает высокую производительность и масштабируемость хранилища, что хорошо подходит для совместного использования файлов на различных платформах и для резервного копирования данных. На Synology RS820+/RS820RP+ распространяется 3-летняя ограниченная гарантия компании Synology.

Synology RackStation RS820+/RS820RP+

Synology RackStation RS820+/RS820RP+ (источник: Synology).

  • Четырехъядерный процессор с тактовой частотой 2,1 ГГц с поддержкой AES-NI.
  • Память DDR4 2 ГБ (с возможностью расширения до 18 ГБ).
  • Невероятная последовательная пропускная способность 10GbE: более 1621 МБ/с при чтении и 599 МБ/с при записи.
  • Масштабирование до 8 дисков с подключением модуля расширения Synology RX4183.
  • Один разъем PCIe 3.0 для дополнительной сетевой карты 10GbE или платы адаптера M2D18 для твердотельных накопителей.
  • Усовершенствованная файловая система Btrfs с возможностью создания 65 000 снимков системы и 1024 снимков каждой общей папки.
  • Synology High Availability (SHA) обеспечивает бесперебойную работу служб за счет плавного переключения между серверами в кластерах.

Synology RackStation RS819 – это стоечная сетевая система хранения для рабочих групп в форм-факторе 1U с 4 отсеками. Система хранения с шасси глубиной 12 дюймов для установки в двухопорную стойку обеспечивает высокую гибкость при развертывании серверов. RS819 с 64-разрядным четырехъядерным процессором, памятью DDR4 емкостью 2 ГБ и двумя портами Gigabit LAN обеспечивает пропускную способность последовательного чтения и записи более 225 МБ/с и 169 МБ/с соответственно. RS819 также обеспечивает масштабируемость хранилища до 8 дисков при подключении к одному модулю расширения Synology RX4182.

Synology RackStation RS819

Synology RackStation RS819 (источник: Synology).

  • Масштабируемая стоечная модель NAS для рабочих групп в формфакторе 1U с 4 отсеками.
  • 64-разрядный четырехъядерный процессор 1,4 ГГц.
  • Компактный дизайн шасси, глубина менее 12 дюймов.
  • Производительность шифрования более 224 МБ/с при чтении, 152 МБ/с при записи.
  • Два порта LAN 1GbE с поддержкой аварийного переключения и функции Link Aggregation.
  • Усовершенствованная файловая система Btrfs с возможностью создания 4096 моментальных снимков системы и 256 моментальных снимков для каждой общей папки.
  • Масштабирование до 8 дисков с Synology RX4182.

Унифицированный контроллер UC3200 для высокодоступных сред SAN поддерживает архитектуру «активный-активный» для обеспечения непрерывной работы служб iSCSI. Решение обеспечивает надежную защиту данных, обладает простым интерфейсом управления и максимально увеличивает время бесперебойной работы критически важных служб. На UC3200 предоставляется 5-летняя ограниченная гарантия Synology.

Унифицированный контроллер UC3200

Унифицированный контроллер UC3200 (источник: Synology).

  • Высокопроизводительное решение по хранению данных в режиме «активный-активный» для обеспечения непрерывной работы служб iSCSI.
  • Свыше 140 000 операций ввода-вывода в секунду (произвольная запись блоками по 4 КБ), производительность корпоративного класса с малой задержкой.
  • Гибкая емкость хранения с возможностью масштабирования до 36 дисков с помощью модуля расширения RXD1219sas.
  • Поддержка виртуализации благодаря VMware vSphere®, Microsoft Hyper-V®, Citrix® XenServer и OpenStack® Cinder.
  • Отказоустойчивый механизм защиты кэша для предотвращения потери данных.
  • Мгновенная защита данных с помощью встроенных технологий создания снимков и репликации.
  • Простой и унифицированный пользовательский интерфейс для удобного управления данными и задачами хранения.
  • 5-летняя ограниченная гарантия компании Synology.

UC3200 – это экономичное и надежное решение IP SAN для критически важных сред. Корпус 2U оснащен узлами контроллера «активный-активный» (на базе 4-ядерного процессора Intel® Xeon® D-1521) и памятью DDR4 ECC UDIMM емкостью 8 ГБ (с возможностью увеличения до 64 ГБ). Система обеспечивает производительность свыше 140 000 операций ввода-вывода в секунду при произвольной записи блоками по 4 КБ.

UC3200 позволяет начать с минимальной конфигурации и расширять систему в будущем. По умолчанию сервер вмещает 12 слотов для 3,5-дюймовых или 2,5-дюймовых дисков SAS с возможностью масштабирования до 36 дисков SAS при подключении двух модулей расширения RXD1219sas. Порты RJ-45 – один порт 10GbE и два порта 1GbE (на каждом контроллере) и поддержка установки сетевой карты 10GbE/25GbE благодаря разъему PCIe 3.0 позволяют увеличить пропускную способность сети с помощью Link Aggregation.

Dell EMC NX

Система хранения Dell EMC NX3240. Оптимизированное управление файлами и блоками данных с помощью передового программного обеспечения для эффективного и адаптивного совместного использования данных.

  • Двухпроцессорный стоечный сервер с форм-фактором 2U для сетевой системы хранения данных (NAS).
  • Процессоры Intel® Xeon® Bronze 3104 или 3106, либо Silver 4114.
  • До 64 Гбайт2 памяти.
  • Накопители NL-SAS, SATA или SAS.
  • До 12 накопителей 3,5" для данных с возможностью горячей замены; два накопителя 2,5" для ОС.
  • Неформатированная емкость до 192 ТБ.
  • Использование серверной технологии высокой точности PowerEdge R740xd.

Система хранения Dell EMC NX3340. Сетевая система хранения данных (NAS) с технологией Cluster Ready, обеспечивающая эффективное развертывание и интеграцию с высокой доступностью для простого управления данными.

  • Двухпроцессорный стоечный сервер и шлюз с форм-фактором 1U для NAS.
  • Процессоры Intel® Xeon® Bronze 3106 или Silver 4114.
  • До 64 Гбайт памяти.
  • Два или четыре накопителя SAS 2,5" для ОС с возможностью горячей замены.
  • Использование серверной технологии высокой точности PowerEdge R640.

Система хранения Dell EMC NX440. Сетевая система хранения данных (NAS) с автоматической настройкой и управлением для эффективного обмена данными.

  • Однопроцессорный стоечный сервер NAS с форм-фактором 1U.
  • Процессор Intel® Xeon® E-2124.
  • До четырех накопителей NL-SAS или SATA 3,5" для данных и ОС с возможностью горячей замены.
  • До 48 ТБ памяти.
  • Использование серверной технологии PowerEdge R340.
Конструктив серии Dell EMC NX

Конструктив серии Dell EMC NX (источник: Dell EMC).

Управление файловыми системами хранения Dell EMC

ПО Dell OpenManage™ с консолью Dell Management Console, iDRAC8 или iDRAC9 Enterprise, встроенным подключаемым модулем Java RDP или интерфейсом управления Windows Server

Функции управления данными в СХД Dell EMC

Дедупликация данных со сжатием, FCI (инфраструктура классификации файлов), FSRM (диспетчер ресурсов файлового сервера).

Серия сетевых файловых хранилищ NAS Dell EMC Storage NX – это решение для малых и средних компаний, удаленных филиалов и офисов, нуждающихся в общем доступе к файлам. Серия базируется на процессорах Intel Xeon, поэтому обеспечивает высокий уровень быстродействия при работе с любыми требовательными нагрузками. Хранилища серии легко адаптируются к различным нагрузкам и обеспечивают низкую совокупную стоимость хранения ТСО.

Серия Dell Storage NX способна повысить эффективность использования емкости сетевой системы хранения данных (NAS) и оптимизировать дисковое пространство с помощью следующих встроенных функций:

  • дедупликация данных;
  • динамическое выделение ресурсов;
  • возможность синхронизации DFS-R в сетевых подключениях с ограниченной пропускной способностью в распределенных и удаленных офисных средах;
  • служба теневого копирования томов (VSS) для общих папок SMB, которая позволяет выполнять резервное копирование с использованием моментальных копий удаленных общих папок, поддерживающих серверные приложения на основе SMB.

NX3340 используется в качестве шлюза NAS к дополнительным массивам сетей хранения данных для масштабного внешнего расширения. Поддержка кластеризации (до 64 узлов) с использованием томов Clustered Shared Volumes (CSV) при подключении к массивам хранения PowerVault MD3, EqualLogic или Dell Compellent.