Емкость для хранения данных перед удалением их из компьютера
Система хранения данных (СХД) — комплекс аппаратных и программных средств, который предназначен для хранения и оперативной обработки информации, как правило, большого объема. Информация — это файлы, в том числе медиа, структурированные (СУБД) и неструктурированные данные (big data), резервные копии, архивы. В качестве носителей информации используются жесткие диски, в основном SSD (системы All Flash Array), а также гибридные решения, сочетающие SSD- и HDD-накопители в одной СХД.
От пользовательского жесткого диска СХД отличаются сложной архитектурой, возможностью объединять хранилища в сеть передачи данных, наличием отдельного ПО для управления системой хранения, продвинутыми технологиями резервного копирования, сжатия и виртуализации.
Системы хранения данных различаются по нескольким параметрам, от выбора которых зависит применение СХД.
Как выбрать СХД?
В первую очередь нужно понимать, какие задачи она будет решать. Важно определиться с несколькими базовыми параметрами.
Как выбрать СХД
В первую очередь нужно понимать, какие задачи она будет решать. Перед обращением к поставщику (или интегратору) следует определиться с несколькими базовыми параметрами.
Тип данных
Разные типы данных требуют разной скорости доступа, технологий обработки, компрессии и так далее. К примеру, СХД для работы с большими медиа-файлами отличается от той, что подходит для работы с транзакционной СУБД, или от системы, которая будет работать с неструктурированными данными для нейросети.
Объем данных
От этого зависит выбор дисковых накопителей. Иногда можно обойтись SSD потребительского класса — если известно, что емкость СХД даже в худшем случае не будет превышать 300 Гб, а скорость доступа не критична.
Отказоустойчивость
Необходимо представлять, какова стоимость потери данных за определенное время. Это поможет рассчитать RPO и RTO, а также избежать лишних затрат на резервное копирование.
Производительность
Если СХД закупается под новый проект (сервис), о нагрузке которого судить сложно, лучше пообщаться с коллегами, которые уже решали эту задачу. Или обратиться к опытному поставщику, который подобные проекты уже запускал. Идеальный вариант — потестировать СХД.
Вендор
Иногда даже для ресурсоемкого сервиса подойдет бюджетное или среднеуровневое решение (StarWind, Huawei, Fujitsu). Однако у топовых производителей — NetApp, HPE, Dell EMC — линейка продуктов достаточно широкая, и сравнительно недорогие СХД здесь также можно найти. В любом случае, желательно сильно не расширять количество вендоров на одной инфраструктуре.
TL;DR: Вводная статья с описанием разных вариантов хранения данных. Будут рассмотрены принципы, описаны преимущества и недостатки, а также предпочтительные варианты использования.
Объектные
Расщепляют файлы на «объекты», которые находятся в одном, общем хранилище. Оно может быть поделено на тома, каждый из которых может иметь уникальный идентификатор и подробные метаданные, которые позволяют быстро находить объекты. Подобный подход — это распределённая система.
Уровни хранения
Блочное хранилище
СХД используется как обычный диск, который можно форматировать, устанавливать на него ОС, создавать логические диски. Данные хранятся не файлами, а блоками, что ускоряет операции ввода-вывода. Чаще используется в сетях типа SAN (Storage Attached Network). Подходит для высокопроизводительных вычислений, СУБД, хранения больших объемов данных, в качестве сред разработки (Dev/Test). Из недостатков: а) сложность настройки и обслуживания, которые требуют соответствующей квалификации; б) высокая стоимость.
Файловое хранилище
Данные хранятся в виде файлов, которые размещаются в каталогах. Такая СХД используется для хранения «холодной» информации, которая не требуется для операционных вычислений. На файловых хранилищах, как правило, строятся NAS (Network Attached Storage). Недостатки: при накоплении больших объемов данных усложняется иерархия папок, и скорость работы СХД постепенно снижается. Не подходит для нагрузок, которые требуют высокой скорости отклика.
Объектное хранилище
Тип СХД, который ориентирован на работу с большими неструктурированными данными объемом до петабайтов. Информация хранится не в виде файлов, а в виде «объектов» с уникальными идентификатором и метаданными. Поэтому объектное хранилище похоже по структуре на БД. Используется в аналитике, big data, машинном обучении, для хранения «тяжелых» медиа-файлов и резервных копий, разработки и эксплуатации приложений в облаке, хостинга веб-сайтов. По скорости уступает блочному хранилищу в задачах, связанных с транзакционными нагрузками.
Unified storage
Универсальные системы, позволяющие совмещать в себе как функции NAS так и SAN. Чаще всего по реализации это SAN, в которой есть возможность активировать файловый доступ к дисковому пространству. Для этого устанавливаются дополнительные сетевые карты (или используются уже существующие, если SAN построена на их основе), после чего создается файловая система на некотором блочном устройстве — и уже она раздается по сети клиентам через некоторый файловый протокол, например NFS.
Software-defined storage — программно определяемое хранилище данных, основанное на DAS, при котором дисковые подсистемы нескольких серверов логически объединяются между собой в кластер, который дает своим клиентам доступ к общему дисковому пространству.
Наиболее яркими представителями являются GlusterFS и Ceph, но также подобные вещи можно сделать и традиционными средствами (например на основе LVM2, программной реализации iSCSI и NFS).
N.B. редактора: У вас есть возможность изучить технологию сетевого хранилища Ceph, чтобы использовать в своих проектах для повышения отказоустойчивости, на нашем практическим курсе по Ceph. В начале курса вы получите системные знания по базовым понятиям и терминам, а по окончании научитесь полноценно устанавливать, настраивать и управлять Ceph. Детали и полная программа курса здесь.
Пример SDS на основе GlusterFS
Из преимуществ SDS — можно построить отказоустойчивую производительную реплицируемую систему хранения данных с использованием обычного, возможно даже устаревшего оборудования. Если убрать зависимость от основной сети, то есть добавить выделенные сетевые карты для работы SDS, то получается решение с преимуществами больших SAN\NAS, но без присущих им недостатков. Я считаю, что за подобными системами — будущее, особенно с учетом того, что быстрая сетевая инфраструктура более универсальная (ее можно использовать и для других целей), а также дешевеет гораздо быстрее, чем специализированное оборудование для построения SAN. Недостатком можно назвать увеличение сложности по сравнению с обычным NAS, а также излишней перегруженностью (нужно больше оборудования) в условиях малых систем хранения данных.
Уровни хранения
Блочное хранилище
СХД используется как обычный диск, который можно форматировать, устанавливать на него ОС, создавать логические диски. Данные хранятся не файлами, а блоками, что ускоряет операции ввода-вывода. Чаще используется в сетях типа SAN (Storage Attached Network). Подходит для высокопроизводительных вычислений, СУБД, хранения больших объемов данных, в качестве сред разработки (Dev/Test). Из недостатков: а) сложность настройки и обслуживания, которые требуют соответствующей квалификации; б) высокая стоимость.
Файловое хранилище
Данные хранятся в виде файлов, которые размещаются в каталогах. Такая СХД используется для хранения «холодной» информации, которая не требуется для операционных вычислений. На файловых хранилищах, как правило, строятся NAS (Network Attached Storage). Недостатки: при накоплении больших объемов данных усложняется иерархия папок, и скорость работы СХД постепенно снижается. Не подходит для нагрузок, которые требуют высокой скорости отклика.
Объектное хранилище
Тип СХД, который ориентирован на работу с большими неструктурированными данными объемом до петабайтов. Информация хранится не в виде файлов, а в виде «объектов» с уникальными идентификатором и метаданными. Поэтому объектное хранилище похоже по структуре на БД. Используется в аналитике, big data, машинном обучении, для хранения «тяжелых» медиа-файлов и резервных копий, разработки и эксплуатации приложений в облаке, хостинга веб-сайтов. По скорости уступает блочному хранилищу в задачах, связанных с транзакционными нагрузками.
Какие бывают системы хранения данных
Существует классификация СХД: они делятся на файловые, блочные и объектные. Каждый вид СХД определяет в каком виде хранятся данные, способ доступа к ним, и, как результат, простоту управления и скорость доступа к данным.
Блочные
Данные хранятся независимо друг от друга. Каждому такому блоку присваивается идентификатор, который позволяет системе размещать каждый блок, где ей удобно. Блочные хранилища не полагаются на единственный путь к данным (в отличии от файловых хранилищ).
Тип данных
Разные типы данных требуют разной скорости доступа, технологий обработки, компрессии и так далее. К примеру, виртуальный СХД для работы с большими медиа-файлами отличается от той системы, которая будет работать с неструктурированными данными для нейросети.
Хранение данных
Под хранением обычно понимают запись данных на некоторые накопители данных, с целью их (данных) дальнейшего использования. Опустим исторические варианты организации хранения, рассмотрим подробнее классификацию систем хранения по разным критериям. Я выбрал следующие критерии для классификации: по способу подключения, по типу используемых носителей, по форме хранения данных, по реализации.
По способу подключения есть следующие варианты:
- Внутреннее. Сюда относятся классическое подключение дисков в компьютерах, накопители данных устанавливаются непосредственно в том же корпусе, где и будут использоваться. Типовые шины для подключения — SATA, SAS, из устаревших — IDE, SCSI.
подключение дисков в сервере
- Внешнее. Подразумевается подключение накопителей с использованием некоторой внешней шины, например FC, SAS, IB, либо с использованием высокоскоростных сетевых карт.
дисковая полка, подключаемая по FC
По типу используемых накопителей возможно выделить:
- Дисковые. Предельно простой и вероятно наиболее распространенный вариант до сих пор, в качестве накопителей используются жесткие диски
- Ленточные. В качестве накопителей используются запоминающие устройства с носителем на магнитной ленте. Наиболее частое применение — организация резервного копирования.
- Flash. В качестве накопителей применяются твердотельные диски, они же SSD. Наиболее перспективный и быстрый способ организации хранилищ, по емкости SSD уже фактически сравнялись с жесткими дисками (местами и более емкие). Однако по стоимости хранения они все еще дороже.
- Гибридные. Совмещающие в одной системе как жесткие диски, так и SSD. Являются промежуточным вариантом, совмещающим достоинства и недостатки дисковых и flash хранилищ.
Если рассматривать форму хранения данных, то явно выделяются следующие:
- Файлы (именованные области данных). Наиболее популярный тип хранения данных — структура подразумевает хранение данных, одинаковое для пользователя и для накопителя.
- Блоки. Одинаковые по размеру области, при этом структура данных задается пользователем. Характерной особенностью является оптимизация скорости доступа за счет отсутствия слоя преобразования блоки-файлы, присутствующего в предыдущем способе.
- Объекты. Данные хранятся в плоской файловой структуре в виде объектов с метаданными.
По реализации достаточно сложно провести четкие границы, однако можно отметить:
- аппаратные, например RAID и HBA контроллеры, специализированные СХД.
RAID контроллер от компании Fujitsu
- Программные. Например реализации RAID, включая файловые системы (например, BtrFS), специализированные сетевые файловые системы (NFS) и протоколы (iSCSI), а также SDS
пример организации LVM с шифрованием и избыточностью в виртуальной машине Linux в облаке Azure
Давайте рассмотрим более детально некоторые технологии, их достоинства и недостатки.
Direct Attached Storage — это исторически первый вариант подключения носителей, применяемый до сих пор. Накопитель, с точки зрения компьютера, в котором он установлен, используется монопольно, обращение с накопителем происходит поблочно, обеспечивая максимальную скорость обмена данными с накопителем с минимальными задержками. Также это наиболее дешевый вариант организации системы хранения данных, однако не лишенный своих недостатков. К примеру если нужно организовать хранение данных предприятия на нескольких серверах, то такой способ организации не позволяет совместное использование дисков разных серверов между собой, так что система хранения данных будет не оптимальной: некоторые сервера будут испытывать недостаток дискового пространства, другие же — не будут полностью его утилизировать:
Конфигурации систем с единственным накопителем применяются чаще всего для нетребовательных нагрузок, обычно для домашнего применения. Для профессиональных целей, а также промышленного применения чаще всего используется несколько накопителей, объединенных в RAID-массив программно, либо с помощью аппаратной карты RAID для достижения отказоустойчивости и\или более высокой скорости работы, чем единичный накопитель. Также есть возможность организации кэширования наиболее часто используемых данных на более быстром, но менее емком твердотельном накопителе для достижения и большой емкости и большой скорости работы дисковой подсистемы компьютера.
Storage area network, она же сеть хранения данных, является технологией организации системы хранения данных с использованием выделенной сети, позволяя таким образом подключать диски к серверам с использованием специализированного оборудования. Так решается вопрос с утилизацией дискового пространства серверами, а также устраняются точки отказа, неизбежно присутствующие в системах хранения данных на основе DAS. Сеть хранения данных чаще всего использует технологию Fibre Channel, однако явной привязки к технологии передачи данных — нет. Накопители используются в блочном режиме, для общения с накопителями используются протоколы SCSI и NVMe, инкапсулируемые в кадры FC, либо в стандартные пакеты TCP, например в случае использования SAN на основе iSCSI.
Давайте разберем более детально устройство SAN, для этого логически разделим ее на две важных части, сервера с HBA и дисковые полки, как оконечные устройства, а также коммутаторы (в больших системах — маршрутизаторы) и кабели, как средства построения сети. HBA — специализированный контроллер, размещаемый в сервере, подключаемом к SAN. Через этот контроллер сервер будет «видеть» диски, размещаемые в дисковых полках. Сервера и дисковые полки не обязательно должны размещаться рядом, хотя для достижения высокой производительности и малых задержек это рекомендуется. Сервера и полки подключаются к коммутатору, который организует общую среду передачи данных. Коммутаторы могут также соединяться с собой с помощью межкоммутаторных соединений, совокупность всех коммутаторов и их соединений называется фабрикой. Есть разные варианты реализации фабрики, я не буду тут останавливаться подробно. Для отказоустойчивости рекомендуется подключать минимум две фабрики к каждому HBA в сервере (иногда ставят несколько HBA) и к каждой дисковой полке, чтобы коммутаторы не стали точкой отказа SAN.
Недостатками такой системы являются большая стоимость и сложность, поскольку для обеспечения отказоустойчивости требуется обеспечить несколько путей доступа (multipath) серверов к дисковым полкам, а значит, как минимум, задублировать фабрики. Также в силу физических ограничений (скорость света в общем и емкость передачи данных в информационной матрице коммутаторов в частности) хоть и существует возможность неограниченного подключения устройств между собой, на практике чаще всего есть ограничения по числу соединений (в том числе и между коммутаторами), числу дисковых полок и тому подобное.
Network attached storage, или сетевое файловое хранилище, представляет дисковые ресурсы в виде файлов (или объектов) с использованием сетевых протоколов, например NFS, SMB и прочих. Принципиально базируется на DAS, но ключевым отличием является предоставление общего файлового доступа. Так как работа ведется по сети — сама система хранения может быть сколько угодно далеко от потребителей (в разумных пределах разумеется), но это же является и недостатком в случае организации на предприятиях или в датацентрах, поскольку для работы утилизируется полоса пропускания основной сети — что, однако, может быть нивелировано с использованием выделенных сетевых карт для доступа к NAS. Также по сравнению с SAN упрощается работа клиентов, поскольку сервер NAS берет на себя все вопросы по общему доступу и т.п.
Вендор
Иногда даже для ресурсоемкого сервиса подойдет бюджетное или среднеуровневое решение (StarWind, Huawei, Fujitsu). Однако у топовых производителей — NetApp, HPE, Dell EMC — линейка продуктов достаточно широкая, и сравнительно недорогие СХД здесь также можно найти. В любом случае, желательно сильно не расширять количество вендоров на одной инфраструктуре.
Если сейчас вы находитесь в поисках решения для работы с данными, арендовать выделенный web-сервер и СХД (системы хранения данных) можно в одном из наших ЦОД. Мы, со своей стороны, обеспечим сервер быстрым соединением с интернетом на скорости до 10 Гбит/сек, постоянным подключением к электричеству и поддержкой 27/7 ;).
Выбор устройства для хранения информации в 2017 году – это очень спорная тема. Прошли уж те времена, когда можно было выбирать только из HDD небольшого объема или компакт-дисков: сегодня спектр таких решений велик, как никогда. Мы определимся и с тем, зачем хранить, и с тем, на чем хранить. Ведь найти идеальные для себя способы хранения и бэкапирования информации можно достаточно легко.
Отказоустойчивость
Необходимо представлять, какова стоимость потери данных за определённое время. Это поможет рассчитать RPO (Recovery-Point Objective) и RTO (Recovery Time Objective), а также избежать лишних затрат на резервное копирование. Бэкапы, бэкапы и ещё раз бэкапы.
Объём данных
От этого зависит выбор дисковых накопителей. Иногда можно обойтись SSD потребительского класса — если известно, что ёмкость СХД даже в худшем случае не будет превышать 300 ГБ, а скорость доступа не критична.
Отказоустойчивость
Для оценки способности СХД восстанавливаться после сбоев используют два показателя — RPO и RTO.
RPO (recovery point objective)
Период, за который будут потеряны данные, — между моментом аварии и временем, когда создалась последняя резервная копия. Если RPO равен 12 часам, при выходе из строя хранилища возможна потеря данных, накопившихся за последние 12 часов. RPO влияет на выбор технологии аварийного восстановления и зависит от стоимости потери конкретного объема данных.
RTO (recovery time objective)
Время, за которое восстанавливается доступ к СХД. Значение RTO важно для оценки стоимости простоя системы.
Зачем это все?
Хранение данных — одно из важнейших направлений развития компьютеров, возникшее после появления энергонезависимых запоминающих устройств. Системы хранения данных разных масштабов применяются повсеместно: в банках, магазинах, предприятиях. По мере роста требований к хранимым данным растет сложность хранилищ данных.
Надежно хранить данные в больших объемах, а также выдерживать отказы физических носителей — весьма интересная и сложная инженерная задача.
Резервное копирование
Частота создания бэкапов выбирается исходя из конкретных задач и требуемого уровня защиты. То же касается и размещения: рабочие данные и их резервную копию можно хранить в географически распределённых СХД (например, в дата-центрах, расположенных в разных странах и даже континентах).
Кроме бэкапов, делают снэпшоты — моментальные «снимки», которые используют для отката на последнюю рабочую версию системы.
Чтобы резервные копии занимали меньше места, применяется дедупликация. При этом в копию переписываются только те данные, которые изменились. Различие между резервными копиями в среднем не превышает 2%, поэтому дедупликация помогает сэкономить дисковое пространство.
Оглавление
Файловые
Хранят информацию в виде файлов, собранных в каталоги (папки). Файлы организуются и извлекаются благодаря метаданным, которые сообщают, где находится тот или иной файл. Условно такую систему можно представить в виде каталога.
Облака и эфемерные хранилища
Логическим продолжением перехода на виртуализацию является запуск сервисов в облаках. В предельном случае сервисы разбиваются на функции, запускаемые по требованию (бессерверные вычисления, serverless). Важной особенностью тут является отсутствие состояния, то есть сервисы запускаются по требованию и потенциально могут быть запущены столько экземпляров приложения, сколько требуется для текущей нагрузки. Большинство поставщиков (GCP, Azure, Amazon и прочие) облачных решений предлагают также и доступ к хранилищам, включая файловые и блочные, а также объектные. Некоторые предлагают дополнительно облачные базы, так что приложение, рассчитанное на запуск в таком облаке, легко может работать с подобными системами хранения данных. Для того, чтобы все работало, достаточно оплатить вовремя эти услуги, для небольших приложений поставщики вообще предлагают бесплатное использование ресурсов в течение некоторого срока, либо вообще навсегда.
Из недостатков: могут заблокировать аккаунт, на котором все работает, что может привести к простоям в работе. Также могут быть проблемы со связностью и\или доступностью таких сервисов по сети, поскольку такие хранилища полностью зависят от корректной и правильной работы глобальной сети.
Отказоустойчивость
Для оценки способности СХД восстанавливаться после сбоев используют два показателя — RPO и RTO.
RPO (recovery point objective)
Период, за который будут потеряны данные, — между моментом аварии и временем, когда создалась последняя резервная копия. Если RPO равен 12 часам, при выходе из строя хранилища возможна потеря данных, накопившихся за последние 12 часов. RPO влияет на выбор технологии аварийного восстановления и зависит от стоимости потери конкретного объема данных.
RTO (recovery time objective)
Время, за которое восстанавливается доступ к СХД. Значение RTO важно для оценки стоимости простоя системы.
Устройство СХД
Основные компоненты типичной СХД — массив жёстких дисков (HDD или SSD), кэш-память, контроллер дискового массива, внешний корпус и несколько блоков питания.
Главная фишка СХД — это скорость работы дисковой системы. Например, если ваши диски стоят внутри сервера они не будут работать с такой же производительностью, как сервер подключённый к СХД.
Уровни хранения
Блочное хранилище
СХД используется как обычный диск, который можно форматировать, устанавливать на него ОС, создавать логические диски. Данные хранятся не файлами, а блоками, что ускоряет операции ввода-вывода. Чаще используется в сетях типа SAN (Storage Attached Network). Подходит для высокопроизводительных вычислений, СУБД, хранения больших объемов данных, в качестве сред разработки (Dev/Test). Из недостатков: а) сложность настройки и обслуживания, которые требуют соответствующей квалификации; б) высокая стоимость.
Файловое хранилище
Данные хранятся в виде файлов, которые размещаются в каталогах. Такая СХД используется для хранения «холодной» информации, которая не требуется для операционных вычислений. На файловых хранилищах, как правило, строятся NAS (Network Attached Storage). Недостатки: при накоплении больших объемов данных усложняется иерархия папок, и скорость работы СХД постепенно снижается. Не подходит для нагрузок, которые требуют высокой скорости отклика.
Объектное хранилище
Тип СХД, который ориентирован на работу с большими неструктурированными данными объемом до петабайтов. Информация хранится не в виде файлов, а в виде «объектов» с уникальными идентификатором и метаданными. Поэтому объектное хранилище похоже по структуре на БД. Используется в аналитике, big data, машинном обучении, для хранения «тяжелых» медиа-файлов и резервных копий, разработки и эксплуатации приложений в облаке, хостинга веб-сайтов. По скорости уступает блочному хранилищу в задачах, связанных с транзакционными нагрузками.
Резервное копирование
Частота создания бэкапов выбирается исходя из конкретных задач и требуемого уровня защиты. То же касается и размещения: рабочие данные и их резервную копию можно хранить в географически распределённых СХД (например, в дата-центрах, расположенных в разных странах и даже континентах).
Кроме бэкапов, делают снэпшоты — моментальные «снимки», которые используют для отката на последнюю рабочую версию системы.
Чтобы резервные копии занимали меньше места, применяется дедупликация. При этом в копию переписываются только те данные, которые изменились. Различие между резервными копиями в среднем не превышает 2%, поэтому дедупликация помогает сэкономить дисковое пространство.
Что такое СХД и какие проблемы она решает
СХД (Система хранения данных или Сервер хранения данных) — это устройство для хранения и управления данными, их резервного копирования. Она призвана решить типичные проблемы, связанные с растущими объёмами информации в любой организации.
Если раньше все данные могли храниться буквально на одном жёстком диске, то сейчас любая функциональная система требует отдельного хранилища – к примеру, серверов электронной почты, СУБД, домена и так далее. Поэтому с помощью СХД можно организовать децентрализацию информации (рассредоточение её по разным хранилищам).
Лавинообразный рост размера информации, который вызван, с одной стороны, ужесточением регулирования и требованием сохранять всё больше информации, связанной с ведением бизнеса. С другой стороны, ужесточение конкуренции требует всё более глубокого анализа информации о рынке, клиентах, их предпочтениях, заказах и действиях конкурентов. Но количества жёстких дисков, которые вы можете установить в конкретный сервер, не может покрыть необходимую системе ёмкость. В этом тоже может помочь СХД.
Хранение данных — не единственная функция современных СХД. Они также предлагают экономить место в хранилище с помощью дедупликации и компрессии. Компрессия позволяет системе сжимать файлы, исключая избыточную информацию, а дедупликация помогает экономить место для хранения, исключая избыточные файлы и оставляя лишь ссылки на них.
Некоторым компаниям тяжело контролировать и ограничивать доступ из-за политики безопасности предприятия. Например, касается как доступа к данным по существующим для этого каналам (локальная сеть), так и физического доступа к носителям.
Также отметим высокие затраты используемых ресурсов для поддержания работоспособности всей информационной системы предприятия, начиная от необходимости содержать большой штат квалифицированного персонала и заканчивая многочисленными недешёвыми аппаратными решениями.
Вступление
реклама
Выбор устройства для хранения информации в 2017 году – это очень и очень спорная тема. Прошли уж те времена, когда можно было выбирать только из жестких дисков небольшого объема или компакт-дисков (для мажоров, ага): сегодня спектр решений для хранения данных велик, как никогда.
Для начала определимся с тем, а зачем нам, собственно, что-то хранить – в эпоху интернета? Когда все «в небесах» – в облаках?
В первую очередь сегодня мы погребены под обилием информации. Петабайты нужных и ненужных (чаще) данных обрушиваются на нас снежной лавиной, и здесь речь идет даже не о новостях, а о данных физических: фотографиях, гигантском количестве пиратской и не очень музыки и фильмов. Сюда же отнесем и приложения, «которые когда-нибудь пригодятся»; фильмы, которые посмотрели один раз, «может быть, посмотрю во второй»… Не все же все удаляют, верно? Встает вопрос о том, где все это хранить.
Потом – «бэкапы». Опять же, ни для кого не секрет, что современные и самые дешевые с точки зрения фактора «цена за мегабайт» жесткие диски (традиционные, «блинные») страдают от низкого качества. К примеру, у меня настроено почти полное ежедневное зеркалирование системного жесткого диска и диска с данными на идентичные по объему модели. Почему? Именно потому, что «полететь в голубые небеса» может любой «винчестер» в любое время и в любом месте.
Одним словом, хранение данных все равно актуально, и интернет этого не заменит.
Заключение
Надеюсь, статья была полезной не только новичкам. Предлагаю обсудить в комментариях дополнительные возможности систем хранения данных, написать о своем опыте построения систем хранения данных.
Система хранения данных (СХД) — комплекс аппаратных и программных средств, который предназначен для хранения и оперативной обработки информации, как правило, большого объема. Информация — это файлы, в том числе медиа, структурированные (СУБД) и неструктурированные данные (big data), резервные копии, архивы. В качестве носителей информации используются жесткие диски, в основном SSD (системы All Flash Array), а также гибридные решения, сочетающие SSD- и HDD-накопители в одной СХД.
От пользовательского жесткого диска СХД отличаются сложной архитектурой, возможностью объединять хранилища в сеть передачи данных, наличием отдельного ПО для управления системой хранения, продвинутыми технологиями резервного копирования, сжатия и виртуализации.
Системы хранения данных различаются по нескольким параметрам, от выбора которых зависит применение СХД.
Производительность
Если СХД закупается под новый проект (нагрузку которого сложно предугадать), то лучше пообщаться с коллегами, которые уже решали эту задачу или протестировать СХД.
Сетевой доступ
NAS (network-attached storage)
Файловый сервер, который включен в локальную сеть. Доступ к дисковому хранилищу организован через протоколы NFS (в UNIX/Linux-системах) или CIFS (Windows). NAS используется для работы с данными файлового типа, к которым нужен коллективный одновременный доступ — например, к общим документами Word и Excel. NAS работает «поверх» существующей локальной сети, через общие коммутаторы/маршрутизаторы.
SAN (storage area network)
Сеть, которая годится для использования разнотипных хранилищ (диски, оптические приводы, ленточные массивы), но которые воспринимаются операционной системой как единое логическое хранилище данных, или как сетевой логический диск. Протоколы: iSCSI (IP-SAN) и FibreChannel (FC). Для подключения компьютеров используются адаптеры HBA (Host Bus Adapter). В SAN применяется в основном блочный тип хранения данных.
Разделение SAN/NAS уже не так строго, как было в начале 2000-х, поскольку с появлением протокола iSCSI производители стали выпускать гибридные решения.
Принцип работы СХД — NAS, SAN и DAS
Существует несколько аппаратных компонентов, программного обеспечения и протоколов, которые в конечном итоге придают решениям для хранения данных их особые свойства.
На основе классификации выше выделяют два основных типа СХД: они различаются уровнем хранения, чтения и записи данных.
- Первый вариант работает с данными файлового уровня. Это означает, что такое хранилище, по сути, функционирует как сервер с собственной файловой системой. На практике клиентский сервер даёт такие команды, как «записать Х битов в этот файл» или «извлечь Х битов из этого файла» соответственно. Этот тип хранилища называется NAS.
- Второй вариант — это доступ к данным на уровне блоков. Это ускоряет обмен данными между сервером и хранилищем, поскольку он прямой, то есть «блок записи X» или «блок вызова X». Такие репозитории связаны друг с другом и с сервером либо как DAS, либо через SAN.
О каждом из них расскажем подробнее.
NAS расшифровывается как Network Attached Storage, что можно условно перевести как сетевое хранилище. Поскольку данные обрабатываются на уровне файлов, сервер представляется NAS как сетевой сервер со своей собственной файловой системой.
Если объяснить проще — представьте себе стационарный компьютер, который подключён к домашнему роутеру. На нём хранятся фото, видео, документы и другие данные. Сетевой доступ разрешен всем пользователям — приблизительно так выглядит NAS.
NAS-хранилище может принимать разные формы. Например, к производственному серверу могут быть подключены другие серверы, виртуальные машины или так называемые дисковые станции, на которых находится другое количество съёмных жестких дисков.
Преимущества NAS:
- Доступность и низкая стоимость.
- Простота подключения и управления.
- Гибкость, возможность быстро увеличить объём для хранения данных.
- Универсальность клиентов (компьютер под управлением любой операционной системы может получить доступ к файлам).
Недостатки NAS:
- Хранение данных только в виде файлов.
- Медленный доступ к информации по сетевым протоколам (по сравнению с локальной системой).
- Невозможность работы некоторых приложений с сетевыми дисками.
DAS расшифровывается как Direct Attach Storage — прямое подключение к рабочей станции, хранилищу). Например, подключение внешнего диска по USB условно можно назвать DAS.
Из принципиальной простоты архитектуры DAS следуют её основные преимущества: доступная цена и относительная простота внедрения. Кроме того, такой конфигурацией легче управлять ввиду хотя бы того, что число элементов системы мало.
Внутри системы находится блок питания, охлаждение и RAID-контроллер, который обеспечивает надёжность и отказоустойчивость хранилища. Управляется при помощи встроенной операционной системы.
Достоинства DAS:
- Легкость развёртывания и администрирования.
- Высокая скорость передачи данных.
- Низкая стоимость оборудования.
Недостатки DAS:
- Требует выделенного сервера).
- Ограничения в подключениях (не больше двух серверов).
В свою очередь SAN — это сети хранения данных. Как правило они представлены в виде внешних хранилищ на нескольких сетевых блочных устройствах и реализованы в виде протокола FC (Fiber Channel) или iSCSI (Internet Small Computer System Interface). Это блочный доступ непосредственно к устройству хранения — диску или наборов дисков в виде RAID-групп или логических устройств.
Кстати, вышеупомянутый DAS может быть очень мощным и часто более дешёвым, чем SAN. Однако в то же время недостаток DAS в том, что он не может быть легко расширен — количество подключённых компьютеров ограничено физическим количеством портов SAS на DAS (обычно их всего четыре). Поэтому многие компании и учреждения предпочитают выбирать блочные хранилища, подключенные через SAN.
Преимущества SAN:
- Высокая скорость работы, низкая задержка.
- Гибкость и масштабируемость.
- Хранение данных блоками.
- Высокая надёжность обмена и хранения данных.
- Разгрузка подсети от служебного трафика.
Недостатки SAN:
- Сложность проектирования
- Высокая стоимость.
- Невозможность некоторых приложений и систем работать с протоколом iSCSI.
Сетевой доступ
NAS (network-attached storage)
Файловый сервер, который включен в локальную сеть. Доступ к дисковому хранилищу организован через протоколы NFS (в UNIX/Linux-системах) или CIFS (Windows). NAS используется для работы с данными файлового типа, к которым нужен коллективный одновременный доступ — например, к общим документами Word и Excel. NAS работает «поверх» существующей локальной сети, через общие коммутаторы/маршрутизаторы.
SAN (storage area network)
Сеть, которая годится для использования разнотипных хранилищ (диски, оптические приводы, ленточные массивы), но которые воспринимаются операционной системой как единое логическое хранилище данных, или как сетевой логический диск. Протоколы: iSCSI (IP-SAN) и FibreChannel (FC). Для подключения компьютеров используются адаптеры HBA (Host Bus Adapter). В SAN применяется в основном блочный тип хранения данных.
Разделение SAN/NAS уже не так строго, как было в начале 2000-х, поскольку с появлением протокола iSCSI производители стали выпускать гибридные решения.
Как выбрать СХД
В первую очередь нужно понимать, какие задачи она будет решать. Перед обращением к поставщику (или интегратору) следует определиться с несколькими базовыми параметрами.
Тип данных
Разные типы данных требуют разной скорости доступа, технологий обработки, компрессии и так далее. К примеру, СХД для работы с большими медиа-файлами отличается от той, что подходит для работы с транзакционной СУБД, или от системы, которая будет работать с неструктурированными данными для нейросети.
Объем данных
От этого зависит выбор дисковых накопителей. Иногда можно обойтись SSD потребительского класса — если известно, что емкость СХД даже в худшем случае не будет превышать 300 Гб, а скорость доступа не критична.
Отказоустойчивость
Необходимо представлять, какова стоимость потери данных за определенное время. Это поможет рассчитать RPO и RTO, а также избежать лишних затрат на резервное копирование.
Производительность
Если СХД закупается под новый проект (сервис), о нагрузке которого судить сложно, лучше пообщаться с коллегами, которые уже решали эту задачу. Или обратиться к опытному поставщику, который подобные проекты уже запускал. Идеальный вариант — потестировать СХД.
Вендор
Иногда даже для ресурсоемкого сервиса подойдет бюджетное или среднеуровневое решение (StarWind, Huawei, Fujitsu). Однако у топовых производителей — NetApp, HPE, Dell EMC — линейка продуктов достаточно широкая, и сравнительно недорогие СХД здесь также можно найти. В любом случае, желательно сильно не расширять количество вендоров на одной инфраструктуре.
Надёжное хранение данных — задача, которую приходится решать каждому бизнесу. Но когда повышаются объёмы информации, растут и требования к надёжности хранения данных. Чтобы организовать наилучшую работу с информацией, стоит обратиться к СХД — системе хранения данных.
В материале расскажем о том, что такое и как устроены СХД, какие проблемы они решают, как классифицируются и на какие характеристики следует смотреть в первую очередь, если вы не так давно в этой отрасли.
Гиперконвергентные системы
Подавляющее большинство систем хранения данных используется для организации дисков виртуальных машин, при использовании SAN неизбежно происходит удорожание инфраструктуры. Но если объединить дисковые системы серверов с помощью SDS, а процессорные ресурсы и оперативную память с помощью гипервизоров отдавать виртуальным машинам, использующим дисковые ресурсы этой SDS — получится неплохо сэкономить. Такой подход с тесной интеграцией хранилища совместно с другими ресурсами называется гиперконвергентностью. Ключевой особенностью тут является способность почти бесконечного роста при нехватке ресурсов, поскольку если не хватает ресурсов, достаточно добавить еще один сервер с дисками к общей системе, чтобы нарастить ее. На практике обычно есть ограничения, но в целом наращивать получается гораздо проще, чем чистую SAN. Недостатком является обычно достаточно высокая стоимость подобных решений, но в целом совокупная стоимость владения обычно снижается.
Читайте также: