Чем отличается nas от sas
В статье раскрыты преимущества унифицированных систем хранения данных, выпущенных компанией Infortrend. Подробно описаны особенности их аппаратного и программного обеспечения, показано, что унифицированные хранилища, обеспечивающие как блочный, так и файловый доступ, позволяют выполнить наиболее широкий круг задач при демократичной цене, свойственной всем решениям компании Infortrend.
Хранение данных в сегодняшних реалиях – это задача, которая не имеет тривиального решения. В принципе современные технологии позволяют создать систему хранения данных почти любой сложности, под любые потребности, но вот «цена вопроса» при этом может оказаться запредельной. К тому же настройка и использование подобной системы очень специализированы и соответственно требуют громадных человеческих ресурсов и финансовых затрат. Именно поэтому известные производители систем хранения данных (СХД), зная об «интересных» особенностях своих кастомизированных решений, имеют в линейке универсальные (в том числе мощные) продукты, которые с успехом применяются там, где не требуется решать узконаправленных задач или создавать хранилище под конкретную базу данных. Ведь в большинстве случаев системный администратор для корпоративной сети выберет именно универсальное решение, которое ему знакомо и требует минимальных трудозатрат при высокой надежности и работоспособности.
Осознавая эту тенденцию и предвидя растущий спрос, известный дистрибьютор, компания ELKO Group, вывела на российский рынок новые унифицированные системы хранения данных EonStor GS, разработанные компанией Infortrend.
Компания Infortrend
Сначала скажем пару слов о производителе. Infortrend («Инфортренд») – тайваньская компания, имеющая представительства по всему миру и работающая на рынке уже более двух десятков лет – с 1993 года. До недавнего времени линейка ее продукции включала разной производительности СХД с блочным доступом (SAN) серии DS, а также не самые производительные в своем классе унифицированные хранилища EonNas. Компания решила закрыть эту нишу, выпустив линейку EonStore GS, которая построена на базе топовой модели DS4000.
Аппаратное обеспечение
Устройство DS4000 представляет собой SAN – систему с блочным доступом. Усовершенствовав ее, разработчики создали систему GS3000, которая отличается той же скоростью чтения (11 ГБ/с) и записи (5,5 ГБ/с), но дополнительно способна обеспечить файловый доступ на скоростях до 4000 МБ/с. Важным моментом является то, что все возможности находятся внутри одной системы.
Рис. 1. Позиционирование системы хранения данных EonStor GS
Теперь для организации унифицированного хранилища потребителю не придется покупать отдельную систему, которая займет дополнительное место в стойке. Достаточно иметь два юнита, чтобы поместилась система малого формфактора на 12 или 24 диска, или три юнита – для системы на 16 дисков. Глядя на SAN-системы серии DS (рис. 2), закономерно будет ожидать, что в линейке GS ряд типоразмеров тоже со временем расширится. Так, ожидается выпуск систем на 36 дисков формата SFF, а также на 48 и 60 дисков формата LFF. Выбор уже сейчас неплох, а будет еще лучше – на любой кошелек и потребность. Говоря о кошельке, мы помним, что компания Infortrend всегда славилась своими доступными ценами, а также тем, что может поставлять оборудование без дисков или хост-плат, благодаря чему конечный пользователь получает свободу выбора.
Рис. 2. Типоразмеры SAN-систем серии DS
Теперь перейдем непосредственно к начинке системы. Ее сердцем является процессор семейства Xeon от Intel серии D‑1500. В каждом контроллере с горячим резервом (конфигурация symmetric active – active, или SAA) установлено по одному такому процессору. Эти процессоры обеспечивают поддержку до 128 ГБ оперативной памяти DDR4, соответственно вся система поддерживает максимум 256 ГБ оперативной памяти. Пожалуй, это слишком много для обычного применения. Но зато, если в будущем мы захотим использовать SSD-кеш, такой объем памяти легко обеспечит работоспособное состояние пула в 25,6 ТБ. Именно такой максимальный размер поддерживает SSD-кеш.
Следующий важный момент для систем хранения данных, конечно, жесткие диски. Думаем, при наличии оборудования корпоративного класса ни у кого не возникает проблем с поддержкой накопителей (к какому бы типу они ни относились). У компании Infortrend с этим тоже все в порядке. На оборудовании имеются интерфейсы SAS, NL-SAS, SSD SATA или обычные с емкостью вплоть до 10 TБ. А при расширяемости до 444 дисков линейка GS может обеспечить максимальный размер неразмеченного сырого пространства в 4,4 ПБ. Поддерживаются, конечно, и конфигурация all-flash, и гибридные конфигурации с возможностью применить SSD-кеш либо двух- или четырехуровневый тиринг.
Рис. 3. Типы лицензий на программное обеспечение GS
Теперь о подключениях. На борту топовой модели семейства GS устанавливается до четырех хост-плат. Это могут быть FC, iSCSI, SAS или конвергированные хост-платы, в которых можно менять модули и получать 8 или 16 Гбит/с FC, 10 Гбит/с iSCSI, 10 Гбит/с FCoE. Кроме того, у устройств серии GS3000 имеется 8 встроенных портов iSCSI: четыре из них – на 1 Гбит/с и еще четыре – на 10 Гбит/с iSCSI. Итого в целом можно собрать конфигурацию с 24 портами, которая встраивается в любое окружение.
В первое время можно обойтись вообще без хост-плат, используя лишь встроенные порты iSCSI. А уровень файлового доступа обеспечит поддержку протоколов CIFS/SMB, AFP, NFS, FTP. Раз уж речь зашла о скоростях и интерфейсах, следует напомнить, что EonStor GS обеспечивает скорость 12 Гбит/с на уровне подключения дисков, а также на уровне подключения полок расширения.
Рис. 4. Задняя панель устройства
Пока мы не перешли к софту и органам управления, хочется отметить еще одну полезную деталь, доставшуюся в наследство от линейки DS: это возможность установить суперконденсатор вместо аккумулятора (BBU). Вместе с отдельно встроенной флеш-памятью они обеспечивают сохранность информации при запланированных или незапланированных отключениях электроэнергии. Преимуществом же суперконденсатора перед устаревшими аккумуляторами является в первую очередь срок службы. Его не надо обслуживать или менять раз в полгода или год, как батареи, которые вдобавок боятся неблагоприятных погодных условий, например жары.
Наконец, система в целом построена по принципу «ни единой точки отказа»: все блоки питания, вентиляторы, контроллеры и жесткие диски поддерживают горячую замену.
Семейство EonStor GS представлено четырьмя сериями – EonStor GS 1000, 2000, 3000 и 4000, в каждой из которых присутствуют модели различного формфактора, производительности, с одним или двумя контроллерами (от 1 до 2 хост-плат на контроллер) и с прочими характеристиками – модельный ряд огромен! Краткую спецификацию продуктов семейства GS можно посмотреть на рис. 5.
Рис. 5. Линейка GS: характеристики
Программное обеспечение
После знакомства с устройством возникает важный вопрос: как конечный пользователь будет управляться со всей этой производительностью и функциями?
Компания Infortrend выпустила совершенно новый софт для управления системой под названием EonOne. Это программное обеспечение имеет интуитивно понятный веб-интерфейс, а также несколько новых и весьма полезных функций, которых не было в предыдущей версии ПО – SanWatch.
В первую очередь следует отметить, конечно же, функцию управления ресурсами хранилища (SRM – Storage resource managment) – мощный инструмент для системных администраторов, позволяющий всесторонне анализировать и оптимизировать работу системы.
Программа дает возможность строить графики производительности и используемого места за разный промежуток времени (рис. 6), а затем передавать данные для обработки в других аналитических или офисных программах. Эта функция была просто необходима, и наконец компания созрела до ее реализации.
Рис. 6. Управление ресурсами хранилища (SRM): рабочее окно программы
Следующим интересным моментом является организация работы и настройки СХД в новой оболочке EonOne (рис. 7). Компания полностью изменила дизайн и UX (взаимодействие с пользователем). Теперь не надо просматривать множество вкладок, помнить, где находятся те или иные настройки, а при создании и монтировании раздела открывать 3–4 дополнительных окна для создания и конфигурирования логических томов и дисков. Все настройки находятся в одном месте, а вы выбираете заранее продуманные пресеты (наборы настроек). По дополнительной информации, в следующих версиях программы (прошивках) будет возможность создавать собственные пресеты из наиболее часто выполняемых операций. Таким образом, существенно сокращается время на конфигурирование и развертывание системы, а также упрощается труд системных администраторов, которым надо уметь работать с сотней программных сред от разных производителей.
Рис. 7. Настройка рабочего процесса (Workflow)
Разумеется, в новой программе сохранены все достоинства предыдущей версии: наличие менеджера локальной и удаленной репликации, прозрачный механизм создания снапшотов и менеджер расписаний. Конечно, есть и мониторы производительности для быстрой оценки состояния системы.
Интеграция с облачными сервисами
Как уже отмечалось, устройства серии GS – это в первую очередь унифицированные хранилища с блочным и файловым доступом. Однако они способны еще и интегрироваться с облачными сервисами – как публичными (Google, Microsoft Azure, Amazon S3 и пр.), так и частными. Подробная информация об облачной интеграции и сценариях работы будет изложена в отдельной статье.
Если говорить о конкурентных преимуществах глобально, то в первую очередь отметим хорошую расширяемость дисковой системы, богатый выбор хост-портов и различные их комбинации, внушительный объем оперативной памяти. Но самыми интересными преимуществами, пожалуй, являются два:
- полноценно функционирующее унифицированное хранилище в рамках одного серверного устройства высотой 2 U;
- интеграция с облачными сервисами без необходимости докупать отдельное шлюзовое устройство.
Конечно, надо признать, что на рынке существуют «именитые» модели, которые иногда могут обеспечить бóльшую производительность, дополнительные функции и удобства, но в гонке за технологическими преимуществами важно не забывать о конечном пользователе и его бюджете. А в этом плане Infortrend, как ни крути, отличается непревзойденной гибкостью.
В России официальным дистрибьютором Infortrend является компания ELKO Group – известное предприятие, работающее в области поставок оборудования более 20 лет, один из лидеров дистрибьюторского IT-рынка Восточной Европы.
Сотрудники ELKO обладают высокой квалификацией. Они досконально знают свою продукцию и очень умело могут подобрать аналоги более дорогим и «именитым» маркам. Компания осуществляет гарантийное обслуживание, с ее техническими специалистами всегда можно проконсультироваться. Все эти преимущества позволяют использовать оборудование долгие годы без проблем и с минимальными эксплуатационными затратами.
TL;DR: Вводная статья с описанием разных вариантов хранения данных. Будут рассмотрены принципы, описаны преимущества и недостатки, а также предпочтительные варианты использования.
Заключение
Надеюсь, статья была полезной не только новичкам. Предлагаю обсудить в комментариях дополнительные возможности систем хранения данных, написать о своем опыте построения систем хранения данных.
Добрый день, хабр! А вы знаете, что продает HP, кроме принтеров? А Dell, кроме ноутбуков и мониторов? А Hitachi, кроме бытовой техники? Что общего у перечисленных компаний и EMC? Ответ кажется простым для специалистов, но не так очевиден для среднего IT-специалиста.
Все перечисленные компании продают (в т.ч.) системы хранения данных. Какие системы? Да, по своему опыту я убедился, что познания в области хранения данных большинства знакомых мне IT-инженеров заканчиваются в области RAID. Так родилась идея написать эту статью, или даже несколько. Для начала мы рассмотрим ряд технологий в области управления информацией, отметим, какие существуют подходы к хранению данных и почему каждого из них оказывалось недостаточно. Здесь описываются базовые принципы DAS, NAS и SAN, поэтому специалистам эта статья будет, скорее всего, бесполезна, если же вам эта тема не близка, но интересна, добро пожаловать!
Введение
Цель статьи – рассмотреть концептуальные основы подходов к построению систем хранения данных. Здесь намеренно не приводится технических характеристик, т.к. к сути они отношения не имеют. Дабы статья не выглядела рекламной брошюрой, не будет и названий продуктов, а также степеней «хороший» и «не имеющий аналогов». Исчерпывающей статью также назвать нельзя, наоборот, я постарался охватить минимально-достаточный материал, доступный для понимания среднему инженеру, никогда не имевшему дело с СХД. Итак, начнем.
DAS (Direct Attached Storage)
Эта вещь вам давно знакома. Вспомним схему работы с диском обычного PC: материнская плата соединяется с HDD посредством интерфейсов ATA/SATA. Вы уже давно все это знаете, а значит представляете, что такое DAS. Точнее, вы понимаете, что такое архитектура DAS внутреннего типа. Существует также архитектура DAS внешнего типа, которая отличается от внутренней допустимым расстоянием между, вообще говоря, несколькими серверами и устройством хранения.
Возможность внешнего подключения достигается благодаря использованию технологий SCSI и FC. Если не вдаваться в детали перечисленных технологий передачи данных, это, пожалуй, все, что можно сказать про DAS.
Из принципиальной простоты архитектуры DAS следуют основные ее преимущества: наименьшая цена по сравнению с остальными, рассмотренными ниже и относительная простота внедрения. Кроме того, такой конфигурацией легче управлять ввиду хотя бы того, что число элементов системы мало. Целостность данных в DAS обеспечивается применением старой и популярной технологии RAID.
Однако такое решение подойдет для относительно некритичных задач и ограниченного числа рабочих станций. Совместное использование конечных вычислительных ресурсов накладывает ряд ограничений. Количество одновременно подключенных машин не превышает числа портов в устройстве хранения, ограниченная пропускная способность увеличивает время чтения-записи (IO), неэффективное использование кеша и т.д.
Частично проблемы производительности могут быть решены парком серверов (например разделенные по типу обрабатываемых запросов), каждый из которых нагружает отдельное устройство хранения.
Однако и у этой схемы начинаются трудности, когда возникает необходимость разделять данные между серверами, или объем занимаемой памяти оказывается неравномерным. Очевидно, что в таких условиях DAS не отвечает требованиям масштабируемости и отказоустойчивости, по этой причине были придуманы NAS и SAN.
NAS (Network Attached Storage)
Представим себе сервер в локальной сети, который не делает ничего, кроме как расшаривает свои папки. Это практически и есть NAS. Да, NAS – это всего лишь устройство для файлового обмена в IP сети. Минимальная конфигурация NAS выглядит так:
О структуре. NAS-устройство (файл-сервер) – это выделенный высокопроизводительный сервер, имеющий собственную ОС, оптимизированную для операций чтения/записи. Сервер имеет несколько сетевых интерфейсов для связи с IP сетью и устройством хранения: GigabitEthernet, FastEthernet, FDDI и проч. Кроме того, NAS обладает большим объемом оперативной памяти, большая часть которой используется как кеш, что позволяет выполнять операцию записи асинхронно, а чтение ускорить за счет буферизации. Таким образом, данные могут долгое время находится в оперативной памяти, не попадая на диск.
Storage (дисковый массив) – то, что чаще всего изображается в статьях, где речь идет о дата-центрах. Другими словами это шкаф (стойка) с дисками, соединенный (или интегрированный) с файл-сервером. Интегрированный? Да, NAS может быть отдельным сервером (как на рисунке) или входить в состав цельного устройства. В первом случае имеем дело с gateway реализацией NAS, во втором – с монолитной системой. О gateway реализации мы еще вспомним, когда будем говорить о SAN.
Как работает NAS? NAS поддерживает работу с протоколами шаринга CIFS и NFS. Клиент монтирует у себя файловую систему, предоставляемую NAS'ом и выполняет операции чтения/записи в обычном файловом режиме, а сервер NAS их обрабатывает, переводя на язык блочного доступа, понятный стораджу. Кроме этого, поддерживаются такие протоколы, как FTP, DFS, SMB и т.д.Вот и весь NAS… быстро и вкусно.
Какой профит от использования NAS и почему типовому решению нужно отводить целый класс? Во-первых, операции IO занимают меньше времени, следовательно, NAS работает существенно быстрее, чем сервера «общего назначения», так если в вашей архитектуре есть сервер, который должен отдавать много статики, стоит подумать об использовании NAS. Во-вторых, централизованное хранение проще в управлении. В-третьих, общее увеличение емкости NAS происходит прозрачно для клиентов, все операции добавления/удаления памяти скрыты от потребителей. В-четвертых, предоставление доступа на уровне файловой системы позволяет вводить понятие привилегий rwx. Забегая вперед, можно отметить, что при помощи NAS без ущерба пропускной способности легко организовать мультисайтововсть (о том, что это такое мы расскажем, когда речь пойдет о репликации).
Но есть и ряд ограничений, связанных с использованием NAS. В основном это связано с базовым для NAS принципом. Сама по себе избыточность TCP/IP как протокола доступа к данным приводит к накладным расходам. Высокая нагрузка на сеть с довольно ограниченной пропускной способностью увеличивает время отклика. Производительность системы в целом зависит не только от NAS, но и от качества работы коммутирующих устройств сети. Кроме того, без правильного resource allocation, клиент, запрашивающий слишком большие объемы файлов, может влиять на скорость работы других клиентов
SAN (Storage Area Network)
Здесь аналогии с enthernet я не придумал :(. SAN (сеть хранения данных) – это инфраструктура блочного хранения данных, построенная на базе высокоскоростной сети.
Как видно из определения, основное отличие от NAS заключается в предоставлении доступа к данным на блочном уровне. Если же сравнивать SAN и DAS, ключевым понятием здесь является сеть. Так, среди основных компонентов SAN те же компоненты, но от прочих архитектур ее отличает наличие специальных коммутаторов, поддерживающих передачу данных по FibreChannel или (Fast- GB- etc.) Ethernet:
История SAN начинается с конца 1980-х, когда впервые была предложена идея построения FC сети. В ранних реализациях в качестве коммутирующего устройства использовались хабы, такой подход называется управляемой петлей (Arbitrated Loop, далее FC-AL):
На смену FC-AL пришла архитектура, название которой я не стану переводить: FC-Switched Fabric (FC-SW). Именно эта реализация SAN дошла до наших дней. В FC-SW вместо хаба используется один или несколько коммутаторов, таким образом данные предаются не по разделяемому, а по индивидуальным каналам.
Как и в Ethernet на базе этих коммутаторов можно построить множество топологий, в частности, к корневому (-ым) может быть подключен другой коммутатор или хаб:
- общий объем памяти может расти не только за счет увеличения емкости существующих сторожей, но и за счет добавления новых;
- каждый хост может работать с любым устройством хранения, а не только со своим, как в случае с DAS;
- сервер имеет несколько «путей» получения данных (multipathing), поэтому, при правильно построенной топологии, даже после выхода из строя одного из коммутаторов система останется рабочей;
- есть такая опция, как Boot From SAN, это означает что серверу теперь даже не нужен собственный загрузочный диск;
- существует опция zoning, позволяющая разграничивать доступ серверов к ресурсам;
- отчасти решена проблема с пропускной способностью – отчасти, т.к. узким местом по-прежнему остается канал между устройством хранения и коммутатором, однако, такие операции, как например резервное копирование не оказывают влияния на всю сеть.
Но нельзя без ложки дегтя. Один из главных недостатков SAN – это цена. Оставим цифры маркетологам, отметим только что SAN могут себе позволить далеко не все.
Вместо заключения
Очень кратко были рассмотрены основные подходы к построению систем управления данными. Здесь не затронуты такие понятия, как IP SAN или CAS, ничего не сказано про iSCSI и про технологии передачи в целом – пока оставим это для самостоятельного чтения.
Очень поверхностно сказано о защите данных от потерь, способах резервного копирования, что делать, если сгорел датацентр, короче говоря о внештатных ситуациях (disasters) – они-то и станут предметом нашего следующего обзора.
Спасибо, что были с нами.
Решил написать небольшую статейку о сетях хранения данных (СХД), тема эта достаточно интересная, но на Хабре почему-то не раскрыта. Постараюсь поделиться личным опытом по построению и поддержке SAN.
Что это?
Сеть хранения данных, или Storage Area Network — это система, состоящая из собственно устройств хранения данных — дисковых, или RAID — массивов, ленточных библиотек и прочего, среды передачи данных и подключенных к ней серверов. Обычно используется достаточно крупными компаниями, имеющими развитую IT инфраструктуру, для надежного хранения данных и скоростного доступа к ним.
Упрощенно, СХД — это система, позволяющая раздавать серверам надежные быстрые диски изменяемой емкости с разных устройств хранения данных.
Немного теории.
Сервер к хранилищу данных можно подключить несколькими способами.
Первый и самый простой — DAS, Direct Attached Storage (прямое подключение), без затей ставим диски в сервер, или массив в адаптер сервера — и получаем много гигабайт дискового пространства со сравнительно быстрым доступом, и при использовании RAID-массива — достаточную надежность, хотя копья на тему надежности ломают уже давно.
Однако такое использование дискового пространства не оптимально — на одном сервере место кончается, на другом его еще много. Решение этой проблемы — NAS, Network Attached Storage (хранилище, подключенное по сети). Однако при всех преимуществах этого решения — гибкости и централизованного управления — есть один существенный недостаток — скорость доступа, еще не во всех организациях внедрена сеть 10 гигабит. И мы подходим к сети хранения данных.
Главное отличие SAN от NAS (помимо порядка букв в аббревиатурах) — это то, каким образом видятся подключаемые ресурсы на сервере. Если в NAS ресурсы подключаются протоколам NFS или SMB, в SAN мы получаем подключение к диску, с которым можем работать на уровне операций блочного ввода-вывода, что гораздо быстрее сетевого подключения (плюс контроллер массива с большим кэшем добавляет скорости на многих операциях).
Используя SAN, мы сочетаем преимущества DAS — скорость и простоту, и NAS — гибкость и управляемость. Плюс получаем возможность масштабирования систем хранения до тех пор, пока хватает денег, параллельно убивая одним выстрелом еще несколько зайцев, которых сразу не видно:
* снимаем ограничения на дальность подключения SCSI-устройств, которые обычно ограничены проводом в 12 метров,
* уменьшаем время резервного копирования,
* можем грузиться с SAN,
* в случае отказа от NAS разгружаем сеть,
* получаем большую скорость ввода-вывода за счет оптимизации на стороне системы хранения,
* получаем возможность подключать несколько серверов к одному ресурсу, то нам дает следующих двух зайцев:
o на полную используем возможности VMWare — например VMotion (миграцию виртуальной машины между физическими) и иже с ними,
o можем строить отказоустойчивые кластеры и организовывать территориально распределенные сети.
Что это дает?
Помимо освоения бюджета оптимизации системы хранения данных, мы получаем, вдобавок к тому что я написал выше:
* увеличение производительности, балансировку нагрузки и высокую доступность систем хранения за счет нескольких путей доступа к массивам;
* экономию на дисках за счет оптимизации расположения информации;
* ускоренное восстановление после сбоев — можно создать временные ресурсы, развернуть на них backup и подключить к ним сервера, а самим без спешки восстанавливать информацию, или перекинуть ресурсы на другие сервера и спокойно разбираться с умершим железом;
* уменьшение время резервного копирования — благодаря высокой скорости передачи можно бэкапиться на ленточную библиотеку быстрее, или вообще сделать snapshot (мгновенный снимок) с файловой системы и спокойно архивировать его;
* дисковое место по требованию — когда нам нужно — всегда можно добавить пару полок в систему хранения данных.
* уменьшаем стоимость хранения мегабайта информации — естественно, есть определенный порог, с которого эти системы рентабельны.
* надежное место для хранения mission critical и business critical данных (без которых организация не может существовать и нормально работать).
* отдельно хочу упомянуть VMWare — полностью все фишки вроде миграции виртуальных машин с сервера на сервер и прочих вкусностей доступны только на SAN.
Из чего это состоит?
Как я писал выше — СХД состоит из устройств хранения, среды передачи и подключенных серверов. Рассмотрим по порядку:
Системы хранения данных обычно состоят из жестких дисков и контроллеров, в уважающей себя системе как правило всего по 2 — по 2 контроллера, по 2 пути к каждому диску, по 2 интерфейса, по 2 блока питания, по 2 администратора. Из наиболее уважаемых производителей систем следует упомянуть HP, IBM, EMC и Hitachi. Тут процитирую одного представителя EMC на семинаре — «Компания HP делает отличные принтеры. Вот пусть она их и делает!» Подозреваю, что в HP тоже очень любят EMC. Конкуренция между производителями нешуточная, впрочем, как и везде. Последствия конкуренции — иногда вменяемые цены за мегабайт системы хранения и проблемы с совместимостью и поддержкой стандартов конкурентов, особенно у старого оборудования.
Среда передачи данных. Обычно SAN строят на оптике, это дает на текущий момент скорость в 4, местами в 8 гигабит на канал. При построении раньше использовались специализированные хабы, сейчас больше свитчи, в основном от Qlogic, Brocade, McData и Cisco (последние два на площадках не видел ни разу). Кабели используются традиционные для оптических сетей — одномодовые и многомодовые, одномодовые более дальнобойные.
Внутри используется FCP — Fibre Channel Protocol, транспортный протокол. Как правило внутри него бегает классический SCSI, а FCP обеспечивает адресацию и доставку. Есть вариант с подключением по обычной сети и iSCSI, но он обычно использует (и сильно грузит) локальную, а не выделенную под передачу данных сеть, и требует адаптеров с поддержкой iSCSI, ну и скорость помедленнее, чем по оптике.
Есть еще умное слово топология, которое встречается во всех учебниках по SAN. Топологий несколько, простейший вариант — точка-точка (point to point), соединяем между собой 2 системы. Это не DAS, а сферический конь в вакууме простейший вариант SAN. Дальше идет управляемая петля (FC-AL), она работает по принципу «передай дальше» — передатчик каждого устройства соединен с приемником последующего, устройства замкнуты в кольцо. Длинные цепочки имеют свойство долго инициализироваться.
Ну и заключительный вариант — коммутируемая структура (Fabric), она создается с помощью свитчей. Структура подключений строится в зависимости от количества подключаемых портов, как и при построении локальной сети. Основной принцип построения — все пути и связи дублируются. Это значит, что до каждого устройства в сети есть минимум 2 разных пути. Здесь тоже употребимо слово топология, в смысле организации схемы подключений устройств и соединения свитчей. При этом как правило свитчи настраиваются так, что сервера не видят ничего, кроме предназначенных им ресурсов. Это достигается за счет создания виртуальных сетей и называется зонированием, ближайшая аналогия — VLAN. Каждому устройству в сети присваивается аналог MAC-адреса в сети Ethernet, он называется WWN — World Wide Name. Он присваивается каждому интерфейсу и каждому ресурсу (LUN) систем хранения данных. Массивы и свитчи умеют разграничивать доступ по WWN для серверов.
Сервера подключают к СХД через HBA - Host Bus Adapter-ы. По аналогии с сетевыми картами существуют одно-, двух-, четырехпортовые адаптеры. Лучшие собаководы рекомендуют ставить по 2 адаптера на сервер, это позволяет как осуществлять балансировку нагрузки, так и обеспечивает надежность.
А дальше на системах хранения нарезаются ресурсы, они же диски (LUN) для каждого сервера и оставляется место в запас, все включается, установщики системы прописывают топологию, ловят глюки в настройке свитчей и доступа, все запускается и все живут долго и счастливо*.
Я специально не касаюсь разных типов портов в оптической сети, кому надо — тот и так знает или прочитает, кому не надо — только голову забивать. Но как обычно, при неверно установленном типе порта ничего работать не будет.
Из опыта.
Обычно при создании SAN заказывают массивы с несколькими типами дисков: FC для скоростных приложений, и SATA или SAS для не очень быстрых. Таким образом получаются 2 дисковые группы с различной стоимостью мегабайта — дорогая и быстрая, и медленная и печальная дешевая. На быструю вешаются обычно все базы данных и прочие приложения с активным и быстрым вводом-выводом, на медленную — файловые ресурсы и все остальное.
Если SAN создается с нуля — имеет смысл строить ее на основе решений от одного производителя. Дело в том, что, несмотря на заявленное соответствие стандартам, существуют подводные грабли проблемы совместимости оборудования, и не факт, что часть оборудования будет работать друг с другом без плясок с бубном и консультаций с производителями. Обычно для утряски таких проблем проще позвать интегратора и дать ему денег, чем общаться с переводящими друг на друга стрелки производителями.
Если SAN создается на базе существующей инфраструктуры — все может быть сложно, особенно если есть старые SCSI массивы и зоопарк старой техники от разных производителей. В этом случае имеет смысл звать на помощь страшного зверя интегратора, который будет распутывать проблемы совместимости и наживать третью виллу на Канарах.
Часто при создании СХД фирмы не заказывают поддержку системы производителем. Обычно это оправдано, если у фирмы есть штат грамотных компетентных админов (которые уже 100 раз назвали меня чайником) и изрядный капитал, позволяющий закупить запасные комплектующие в потребных количествах. Однако компетентных админов обычно переманивают интеграторы (сам видел), а денег на закупку не выделяют, и после сбоев начинается цирк с криками «Всех уволю!» вместо звонка в саппорт и приезда инженера с запасной деталью.
Поддержка обычно сводится к замене умерших дисков и контроллеров, ну и к добавлению в систему полок с дисками и новых серверов. Много хлопот бывает после внезапной профилактики системы силами местных специалистов, особенно после полного останова и разборки-сборки системы (и такое бывает).
Про VMWare. Насколько я знаю (спецы по виртуализации поправьте меня), только у VMWare и Hyper-V есть функционал, позволяющий «на лету» перекидывать виртуальные машины между физическими серверами. И для его реализации требуется, чтобы все сервера, между которыми перемещается виртуальная машина, были подсоединены к одному диску.
Про кластеры. Аналогично случаю с VMWare, известные мне системы построения отказоустойчивых кластеров (Sun Cluster, Veritas Cluster Server) — требуют подключенного ко всем системам хранилища.
Пока писал статью — у меня спросили — в какие RAIDы обычно объединяют диски?
В моей практике обычно делали или по RAID 1+0 на каждую дисковую полку с FC дисками, оставляя 1 запасной диск (Hot Spare) и нарезали из этого куска LUN-ы под задачи, или делали RAID5 из медленных дисков, опять же оставляя 1 диск на замену. Но тут вопрос сложный, и обычно способ организации дисков в массиве выбирается под каждую ситуацию и обосновывается. Та же EMC например идет еще дальше, и у них есть дополнительная настройка массива под приложения, работающие с ним (например под OLTP, OLAP). С остальными вендорами я так глубоко не копал, но догадываюсь, что тонкая настройка есть у каждого.
* до первого серьезного сбоя, после него обычно покупается поддержка у производителя или поставщика системы.
Поскольку в песочнице комментариев нет, закину в личный блог.
На текущий момент В ИТ индустрии существуют три основные технологии хранения данных:
- SAS (Server Attached Storage), часто встречается аббревиатура DAS (Direct Attach Storage) – хранилище подключаемое напрямую к северу
- NAS (Network Attached Storage) – хранилище подключенное к сети
- SAN (Storage Area Network) – сеть хранения данных
Каждая из них имеет свои достоинства и недостатки, но все они являются жизнеспособными и находят применение в той или иной ситуации. Разберем каждую технологию более подробно.
Хранение данных
Под хранением обычно понимают запись данных на некоторые накопители данных, с целью их (данных) дальнейшего использования. Опустим исторические варианты организации хранения, рассмотрим подробнее классификацию систем хранения по разным критериям. Я выбрал следующие критерии для классификации: по способу подключения, по типу используемых носителей, по форме хранения данных, по реализации.
По способу подключения есть следующие варианты:
- Внутреннее. Сюда относятся классическое подключение дисков в компьютерах, накопители данных устанавливаются непосредственно в том же корпусе, где и будут использоваться. Типовые шины для подключения — SATA, SAS, из устаревших — IDE, SCSI.
подключение дисков в сервере
- Внешнее. Подразумевается подключение накопителей с использованием некоторой внешней шины, например FC, SAS, IB, либо с использованием высокоскоростных сетевых карт.
дисковая полка, подключаемая по FC
По типу используемых накопителей возможно выделить:
- Дисковые. Предельно простой и вероятно наиболее распространенный вариант до сих пор, в качестве накопителей используются жесткие диски
- Ленточные. В качестве накопителей используются запоминающие устройства с носителем на магнитной ленте. Наиболее частое применение — организация резервного копирования.
- Flash. В качестве накопителей применяются твердотельные диски, они же SSD. Наиболее перспективный и быстрый способ организации хранилищ, по емкости SSD уже фактически сравнялись с жесткими дисками (местами и более емкие). Однако по стоимости хранения они все еще дороже.
- Гибридные. Совмещающие в одной системе как жесткие диски, так и SSD. Являются промежуточным вариантом, совмещающим достоинства и недостатки дисковых и flash хранилищ.
Если рассматривать форму хранения данных, то явно выделяются следующие:
- Файлы (именованные области данных). Наиболее популярный тип хранения данных — структура подразумевает хранение данных, одинаковое для пользователя и для накопителя.
- Блоки. Одинаковые по размеру области, при этом структура данных задается пользователем. Характерной особенностью является оптимизация скорости доступа за счет отсутствия слоя преобразования блоки-файлы, присутствующего в предыдущем способе.
- Объекты. Данные хранятся в плоской файловой структуре в виде объектов с метаданными.
По реализации достаточно сложно провести четкие границы, однако можно отметить:
- аппаратные, например RAID и HBA контроллеры, специализированные СХД.
RAID контроллер от компании Fujitsu
- Программные. Например реализации RAID, включая файловые системы (например, BtrFS), специализированные сетевые файловые системы (NFS) и протоколы (iSCSI), а также SDS
пример организации LVM с шифрованием и избыточностью в виртуальной машине Linux в облаке Azure
Давайте рассмотрим более детально некоторые технологии, их достоинства и недостатки.
Direct Attached Storage — это исторически первый вариант подключения носителей, применяемый до сих пор. Накопитель, с точки зрения компьютера, в котором он установлен, используется монопольно, обращение с накопителем происходит поблочно, обеспечивая максимальную скорость обмена данными с накопителем с минимальными задержками. Также это наиболее дешевый вариант организации системы хранения данных, однако не лишенный своих недостатков. К примеру если нужно организовать хранение данных предприятия на нескольких серверах, то такой способ организации не позволяет совместное использование дисков разных серверов между собой, так что система хранения данных будет не оптимальной: некоторые сервера будут испытывать недостаток дискового пространства, другие же — не будут полностью его утилизировать:
Конфигурации систем с единственным накопителем применяются чаще всего для нетребовательных нагрузок, обычно для домашнего применения. Для профессиональных целей, а также промышленного применения чаще всего используется несколько накопителей, объединенных в RAID-массив программно, либо с помощью аппаратной карты RAID для достижения отказоустойчивости и\или более высокой скорости работы, чем единичный накопитель. Также есть возможность организации кэширования наиболее часто используемых данных на более быстром, но менее емком твердотельном накопителе для достижения и большой емкости и большой скорости работы дисковой подсистемы компьютера.
Storage area network, она же сеть хранения данных, является технологией организации системы хранения данных с использованием выделенной сети, позволяя таким образом подключать диски к серверам с использованием специализированного оборудования. Так решается вопрос с утилизацией дискового пространства серверами, а также устраняются точки отказа, неизбежно присутствующие в системах хранения данных на основе DAS. Сеть хранения данных чаще всего использует технологию Fibre Channel, однако явной привязки к технологии передачи данных — нет. Накопители используются в блочном режиме, для общения с накопителями используются протоколы SCSI и NVMe, инкапсулируемые в кадры FC, либо в стандартные пакеты TCP, например в случае использования SAN на основе iSCSI.
Давайте разберем более детально устройство SAN, для этого логически разделим ее на две важных части, сервера с HBA и дисковые полки, как оконечные устройства, а также коммутаторы (в больших системах — маршрутизаторы) и кабели, как средства построения сети. HBA — специализированный контроллер, размещаемый в сервере, подключаемом к SAN. Через этот контроллер сервер будет «видеть» диски, размещаемые в дисковых полках. Сервера и дисковые полки не обязательно должны размещаться рядом, хотя для достижения высокой производительности и малых задержек это рекомендуется. Сервера и полки подключаются к коммутатору, который организует общую среду передачи данных. Коммутаторы могут также соединяться с собой с помощью межкоммутаторных соединений, совокупность всех коммутаторов и их соединений называется фабрикой. Есть разные варианты реализации фабрики, я не буду тут останавливаться подробно. Для отказоустойчивости рекомендуется подключать минимум две фабрики к каждому HBA в сервере (иногда ставят несколько HBA) и к каждой дисковой полке, чтобы коммутаторы не стали точкой отказа SAN.
Недостатками такой системы являются большая стоимость и сложность, поскольку для обеспечения отказоустойчивости требуется обеспечить несколько путей доступа (multipath) серверов к дисковым полкам, а значит, как минимум, задублировать фабрики. Также в силу физических ограничений (скорость света в общем и емкость передачи данных в информационной матрице коммутаторов в частности) хоть и существует возможность неограниченного подключения устройств между собой, на практике чаще всего есть ограничения по числу соединений (в том числе и между коммутаторами), числу дисковых полок и тому подобное.
Network attached storage, или сетевое файловое хранилище, представляет дисковые ресурсы в виде файлов (или объектов) с использованием сетевых протоколов, например NFS, SMB и прочих. Принципиально базируется на DAS, но ключевым отличием является предоставление общего файлового доступа. Так как работа ведется по сети — сама система хранения может быть сколько угодно далеко от потребителей (в разумных пределах разумеется), но это же является и недостатком в случае организации на предприятиях или в датацентрах, поскольку для работы утилизируется полоса пропускания основной сети — что, однако, может быть нивелировано с использованием выделенных сетевых карт для доступа к NAS. Также по сравнению с SAN упрощается работа клиентов, поскольку сервер NAS берет на себя все вопросы по общему доступу и т.п.
Зачем это все?
Хранение данных — одно из важнейших направлений развития компьютеров, возникшее после появления энергонезависимых запоминающих устройств. Системы хранения данных разных масштабов применяются повсеместно: в банках, магазинах, предприятиях. По мере роста требований к хранимым данным растет сложность хранилищ данных.
Надежно хранить данные в больших объемах, а также выдерживать отказы физических носителей — весьма интересная и сложная инженерная задача.
Гиперконвергентные системы
Подавляющее большинство систем хранения данных используется для организации дисков виртуальных машин, при использовании SAN неизбежно происходит удорожание инфраструктуры. Но если объединить дисковые системы серверов с помощью SDS, а процессорные ресурсы и оперативную память с помощью гипервизоров отдавать виртуальным машинам, использующим дисковые ресурсы этой SDS — получится неплохо сэкономить. Такой подход с тесной интеграцией хранилища совместно с другими ресурсами называется гиперконвергентностью. Ключевой особенностью тут является способность почти бесконечного роста при нехватке ресурсов, поскольку если не хватает ресурсов, достаточно добавить еще один сервер с дисками к общей системе, чтобы нарастить ее. На практике обычно есть ограничения, но в целом наращивать получается гораздо проще, чем чистую SAN. Недостатком является обычно достаточно высокая стоимость подобных решений, но в целом совокупная стоимость владения обычно снижается.
SAS (Server Attached Storage)
Это традиционный способ подключения хранилища данных к серверу. Обычно осуществляется через высокоскоростной SCSI интерфейс. Целесообразно использовать при наличии в сети одного сервера (файл-сервера).
- Высокое быстродействие
- Простота реализации
- Низкая цена
- Привязка к операционной системе и используемой ей файловой системе
- Невозможность использования в системах высокой готовности
SAN (Storage Area Network)
Сеть хранения данных представляет собой независимую от ЛВС сеть, которая связывает сервера и системы хранения данных. Преимущество SAN в том, что любой сервер может получить прямой доступ к любому хранилищу данных, не нагружая трафиком локальную сеть компании или другой сервер в сети. Так же существует возможность передачи информации непосредственно между хранилищами данных. SAN представляет собой совокупность аппаратных и программных средств для построения высоконадежных и быстродействующих систем хранения данных с централизованным доступом к информации.
Облака и эфемерные хранилища
Логическим продолжением перехода на виртуализацию является запуск сервисов в облаках. В предельном случае сервисы разбиваются на функции, запускаемые по требованию (бессерверные вычисления, serverless). Важной особенностью тут является отсутствие состояния, то есть сервисы запускаются по требованию и потенциально могут быть запущены столько экземпляров приложения, сколько требуется для текущей нагрузки. Большинство поставщиков (GCP, Azure, Amazon и прочие) облачных решений предлагают также и доступ к хранилищам, включая файловые и блочные, а также объектные. Некоторые предлагают дополнительно облачные базы, так что приложение, рассчитанное на запуск в таком облаке, легко может работать с подобными системами хранения данных. Для того, чтобы все работало, достаточно оплатить вовремя эти услуги, для небольших приложений поставщики вообще предлагают бесплатное использование ресурсов в течение некоторого срока, либо вообще навсегда.
Из недостатков: могут заблокировать аккаунт, на котором все работает, что может привести к простоям в работе. Также могут быть проблемы со связностью и\или доступностью таких сервисов по сети, поскольку такие хранилища полностью зависят от корректной и правильной работы глобальной сети.
Unified storage
Универсальные системы, позволяющие совмещать в себе как функции NAS так и SAN. Чаще всего по реализации это SAN, в которой есть возможность активировать файловый доступ к дисковому пространству. Для этого устанавливаются дополнительные сетевые карты (или используются уже существующие, если SAN построена на их основе), после чего создается файловая система на некотором блочном устройстве — и уже она раздается по сети клиентам через некоторый файловый протокол, например NFS.
Software-defined storage — программно определяемое хранилище данных, основанное на DAS, при котором дисковые подсистемы нескольких серверов логически объединяются между собой в кластер, который дает своим клиентам доступ к общему дисковому пространству.
Наиболее яркими представителями являются GlusterFS и Ceph, но также подобные вещи можно сделать и традиционными средствами (например на основе LVM2, программной реализации iSCSI и NFS).
N.B. редактора: У вас есть возможность изучить технологию сетевого хранилища Ceph, чтобы использовать в своих проектах для повышения отказоустойчивости, на нашем практическим курсе по Ceph. В начале курса вы получите системные знания по базовым понятиям и терминам, а по окончании научитесь полноценно устанавливать, настраивать и управлять Ceph. Детали и полная программа курса здесь.
Пример SDS на основе GlusterFS
Из преимуществ SDS — можно построить отказоустойчивую производительную реплицируемую систему хранения данных с использованием обычного, возможно даже устаревшего оборудования. Если убрать зависимость от основной сети, то есть добавить выделенные сетевые карты для работы SDS, то получается решение с преимуществами больших SAN\NAS, но без присущих им недостатков. Я считаю, что за подобными системами — будущее, особенно с учетом того, что быстрая сетевая инфраструктура более универсальная (ее можно использовать и для других целей), а также дешевеет гораздо быстрее, чем специализированное оборудование для построения SAN. Недостатком можно назвать увеличение сложности по сравнению с обычным NAS, а также излишней перегруженностью (нужно больше оборудования) в условиях малых систем хранения данных.
NAS (Network Attached Storage)
Фактически такие системы являются выделенными файловыми серверами. Очень легко интегрируются в существующую ИТ инфраструктуру. Глобальных изменений в топологию сети не вносят.
- Не привязываются к конкретной операционной или файловой системе
- Не высокая стоимость
- Простота в установке
- Удобство в администрировании
- Появляется дополнительная нагрузка на ЛВС
- Низкая масштабируемость
Читайте также: