Sata mdl что это
В качестве предмета, я полагаю, глядя на SAN, и большинство поставщиков предлагают 10-килобайтные или 15-килобайтные «подходящие» SAS-диски, многие также предлагают 7,2 тыс. MDL / Nearline SAS-дисков.
У кого-нибудь есть авторитетное объяснение разницы, пожалуйста?
Во всех объяснениях, которые я прочитал, я пока не вижу ответа на вопрос, происходит ли какой-либо перевод протокола. т.е. когда накопитель получает команду SAS через интерфейс, если он затем преобразовывает ее внутренне в эквивалентную команду SATA перед выполнением фактической операции, или если это действительно "чистые" диски SAS, и это просто механика диска, которая создана для более низкая спецификация.
Диски 7,2 К медленнее и проще в производстве, а также с более высокими порогами ошибок, что повышает производительность (и емкость). Однако с точки зрения операций ввода-вывода, которые может поддерживать каждый дискретный диск, накопители 7.2КБ заметно менее производительны, чем их более быстрые собратья. Поэтому они получают прозвище «Ближняя линия», так как они достигнут насыщения ввода-вывода намного быстрее, чем эквивалентное количество дисков 10К или 15К. Поэтому производителям хранилищ нужен способ передать: «у нас есть более быстрые вещи», поэтому они выбрали MDL / Nearline.
Именно так они стараются побудить людей, которым нужно как быстрое, так и много места для хранения, перейти на более быстрые диски. Те, кто ограничен в средствах, увидят, что вы можете получить (например) 1,5 ТБ леев / ближнюю линию за полцены 450-Гбайт накопителя 15 КБ, и задаетесь вопросом, почему такая дополнительная плата. Несмотря на это, 48 дисков с частотой вращения 7,2 тыс. Об / мин будут по-прежнему превосходить 12 дисков с частотой вращения 15 тыс. Об / мин. Просто 48 накопителей с частотой вращения 7,2 тыс. Об / мин, вероятно, будут иметь емкость 30 ТБ, тогда как 12 из 15 тыс. Об / мин могут иметь емкость всего 5 ТБ.
Какой еще способ сказать .
Пройдите 7,2 тыс. Об / мин, когда производительность - ваша цель номер один, а производительность - не цель.
Используйте 15 000 оборотов в минуту, когда производительность - ваша цель номер один, а емкость - вторичная.
Спасибо, в моем случае у меня есть цель IOPS и большая общая емкость, некоторые из которых должны быть достаточно быстрыми, некоторые не имеют значения. Я могу получить большую емкость и IOPS, выбрасывая в SAN множество более дешевых, но индивидуально более медленных шпинделей MDL - я не знал, какие могут быть недостатки, поскольку это кажется слишком хорошим, чтобы быть правдой.
И я подумал, что «Nearline» - это своего рода бонус производительности по сравнению с обычным двигателем в 7,2 тыс.… Кровавые маркетологи…
Одним из ключевых отличий является задержка. Диски 10 КБ обычно составляют половину задержки, поэтому, несмотря на то, что вы можете получить такое же количество операций ввода-вывода для данной рабочей нагрузки, вы можете обнаружить, что 7,2 КБ по-прежнему работают слишком медленно. Например, приложение может сделать запрос метаданных (1 операция), после чего запускается еще одна (1 операция) и еще одна (1 операция), а затем считываются данные (1 операция). Для дисков емкостью 9 мс 7,2 тыс. Для удовлетворения запроса будет ~ 36 мс, в то время как для SAS 10 тыс. Это будет ~ 16 мс.
Отличный ответ от 1138, но еще один аспект примечания заключается в том, что средние приводы обычно не имеют рабочего цикла 24/365, это часто трудно определить в спецификациях, но это означает, что если вы будете долго и жестко управлять дисками, они Я буду терпеть неудачу FAR чаще, чем вы думаете. В качестве примера у нас было ~ 200 дисковых массивов, заполненных 1 ТБ леев, и частота отказов> 20% в первый год, потому что массив работал 20-24 часа в сутки, нам пришлось поменять лот на 10 КБ.
В IT-области существует множество мифов. «От спама можно отписаться», «Два антивируса лучше, чем один», «Серверные жёсткие диски должны быть только фирменными». При замене и расширении парка ЖД нужно учитывать немало нюансов и тонкостей, и без своих предубеждений здесь тоже не обошлось. Какие бывают ЖД для серверов, чем они отличаются, на что нужно обращать внимание, и должны ли они быть с логотипом производителя сервера — об этом читайте под катом.
Если диск установлен в сервер, то он должен удовлетворять жёстким требованиям по:
- Надёжности. Невосстановимая потеря данных может обернуться многомиллионными убытками и репутационными потерями.
- Производительности. Серверы априори предназначены для обработки многочисленных запросов.
- Времени отклика. Пользователи не должны ждать, пока серверный диск «пробудится» и обработает их запросы.
Существует четыре основных категории (не берем в расчёт SSD, SAS SSD, PCI-e SSD) жёстких дисков:
- SATA (обычные, «бытовые» SATA) — частота вращения шпинделя 5400 и 7200 об/мин.
- SATA RAID Edition (SATA RE) — частота вращения шпинделя 7200 об/мин, поддержка команд RAID-контроллера.
- SAS Near Line (SAS NL) — частота вращения шпинделя 7200 об/мин.
- SAS Enterprise — частота вращения шпинделя 10 000 или 15 000 об/мин.
ATA / PATA
Интерфейс ATA (Advanced Technology Attachment), так же известный как PATA (Parallel ATA) был разработан компанией Western Digital в 1986 году. Маркетинговое название стандарта IDE (англ. Integrated Drive Electronics — «электроника, встроенная в привод») подчеркивало важное нововведение: контроллер привода был встроен в привод, а не на отдельной плате расширения.
Решение разместить контроллер внутри привода решило сразу несколько проблем. Во-первых, уменьшилось расстояние от накопителя до контроллера, что положительным образом повлияло на характеристики накопителя. Во-вторых, встроенный контроллер был «заточен» только под определенный тип привода и, соответственно, был дешевле.
ATA, как и SCSI, использует параллельный способ ввода-вывода, что отражается на используемых кабелях. Для подключения дисков с использованием интерфейса IDE необходимы 40-жильные кабели, также именуемые шлейфами. В более поздних спецификациях используются 80-жильные шлейфы: более половины из которых — заземления для уменьшения интерференции на высоких частотах.
На шлейфе ATA присутствует от двух до четырех разъемов, один из которых подключается в материнскую плату, а остальные — в накопители. При подключении двух устройств одним шлейфом, одно из них должно быть сконфигурировано как Master, а второе — как Slave. Третье устройство может быть подключено исключительно в режиме «только чтение».
Положение перемычки задает роль конкретного устройства. Термины Master и Slave по отношению к устройствам не совсем корректны, так как относительно контроллера все подключенные устройства — Slaves.
Особенным нововведением в ATA-3 считается появление Self-Monitoring, Analysis and Reporting Technology (S.M.A.R.T.). Пять компаний (IBM, Seagate, Quantum, Conner и Western Digital) объединили усилия и стандартизировали технологию оценки состояния накопителей.
Поддержка твердотельных накопителей появилась с четвертой версии стандарта, выпущенной в 1998 году. Эта версия стандарта обеспечивала скорость обмена данными до 33.3 МБ/с.
Стандарт выдвигает жесткие требования к шлейфам ATA:
- шлейф обязательно должен быть плоским;
- максимальная длина шлейфа 18 дюймов (45.7 сантиметров).
Стандарт Serial ATA (SATA) был представлен 7 января 2003 года и решал проблемы своего предшественника следующими изменениями:
- параллельный порт заменен последовательным;
- широкий 80-жильный шлейф заменен 7-жильным;
- топология «общая шина» заменена на подключение «точка-точка».
Шестнадцать сигнальных линий для передачи данных в ATA были заменены на две витые пары: одна для передачи, вторая для приема. Коннекторы SATA спроектированы для большей устойчивости к множественным переподключениям, а спецификация SATA 1.0 сделала возможным «горячее подключение» (Hot Plug).
Некоторые пины на дисках короче, чем все остальные. Это сделано для поддержки «горячей замены» (Hot Swap). В процессе замены устройство «теряет» и «находит» линии в заранее определенном порядке.
Чуть более, чем через год, в апреле 2004-го, вышла вторая версия спецификации SATA. Помимо ускорения до 3 Гбит/с в SATA 2.0 ввели технологию Native Command Queuing (NCQ). Устройства с поддержкой NCQ способны самостоятельно организовывать порядок выполнения поступивших команд для достижения максимальной производительности.
Последующие три года SATA Working Group работала над улучшением существующей спецификации и в версии 2.6 появились компактные коннекторы Slimline и micro SATA (uSATA). Эти коннекторы являются уменьшенной копией оригинального коннектора SATA и разработаны для оптических приводов и маленьких дисков в ноутбуках.
Несмотря на то, что пропускной способности второго поколения SATA хватало для жестких дисков, твердотельные накопители требовали большего. В мае 2009 года вышла третья версия спецификации SATA с увеличенной до 6 Гбит/с пропускной способностью.
Особое внимание твердотельным накопителям уделили в редакции SATA 3.1. Появился коннектор Mini-SATA (mSATA), предназначенный для подключения твердотельных накопителей в ноутбуках. В отличие от Slimline и uSATA новый коннектор был похож на PCIe Mini, хотя и не был электрически совместим с PCIe. Помимо нового коннектора SATA 3.1 мог похвастаться возможностью ставить команды TRIM в очередь с командами чтения и записи.
Команда TRIM уведомляет твердотельный накопитель о блоках данных, которые не несут полезной нагрузки. До SATA 3.1 выполнение этой команды приводило к сбросу кэшей и приостановке операций ввода-вывода с последующим выполнением команды TRIM. Такой подход ухудшал производительность диска при операциях удаления.
Спецификация SATA не успевала за бурным ростом скорости доступа к твердотельным накопителям, что привело к появлению в 2013 году компромисса под названием SATA Express в стандарте SATA 3.2. Вместо того, чтобы снова удвоить пропускную способность SATA, разработчики задействовали широко распространенную шину PCIe, чья скорость превышает 6 Гбит/с. Диски с поддержкой SATA Express приобрели собственный форм-фактор под названием M.2.
«Конкурирующий» с ATA стандарт SCSI тоже не стоял на месте и всего через год после появления Serial ATA, в 2004, переродился в последовательный интерфейс. Имя новому интерфейсу — Serial Attached SCSI (SAS).
Несмотря на то, что SAS унаследовал набор команд SCSI, изменения были значительные:
- последовательный интерфейс;
- 29-ти жильный кабель с питанием;
- подключение «точка-точка»
Максимальное количество одновременно подключенных устройств в SAS-домене по спецификации превышает 16 тысяч, а вместо SCSI ID для адресации используется идентификатор World-Wide Name (WWN).
Несмотря на схожесть разъемов SAS и SATA, эти стандарты не являются полностью совместимыми. Тем не менее, SATA-диск может быть подключен в SAS-коннектор, но не наоборот. Совместимость между SATA-дисками и SAS-доменом обеспечивается при помощи протокола SATA Tunneling Protocol (STP).
Первая версия стандарта SAS-1 имеет пропускную способность 3 Гбит/с, а самая современная, SAS-4, улучшила этот показатель в 7 раз: 22,5 Гбит/с.
Peripheral Component Interconnect Express (PCI Express, PCIe) — последовательный интерфейс для передачи данных, появившийся в 2002 году. Разработка была начата компанией Intel, а впоследствии передана специальной организации — PCI Special Interest Group.
Последовательный интерфейс PCIe не был исключением и стал логическим продолжением параллельного PCI, который предназначен для подключения карт расширения.
PCI Express значительно отличается от SATA и SAS. Интерфейс PCIe имеет переменное количество линий. Количество линий равно степеням двойки и колеблется в диапазоне от 1 до 16.
Термин «линия» в PCIe обозначает не конкретную сигнальную линию, а отдельный полнодуплексный канал связи, состоящий из следующих сигнальных линий:
- прием+ и прием-;
- передача+ и передача-;
- четыре жилы заземления.
«Аппетиты» твердотельных накопителей растут очень быстро. И SATA, и SAS не успевают увеличивать свою пропускную способность, чтобы «угнаться» за SSD, что привело к появлению SSD-дисков с подключением по PCIe.
Хотя PCIe Add-In карты прикручиваются винтом, PCIe поддерживает «горячую замену». Короткие пины PRSNT (англ. present — присутствовать) позволяют удостовериться, что карта полностью установлена в слот.
Твердотельные накопители, подключаемые по PCIe регламентируются отдельным стандартом Non-Volatile Memory Host Controller Interface Specification и воплощены в множестве форм-факторов, но о них мы расскажем в следующей части.
Уровень невосстановимых ошибок
Следующее отличие серверных жёстких дисков от бытовых — уровень невосстановимых ошибок. У обычных SATA он составляет примерно 10 -14 (1 бит на каждые считанные 10 14 бит=12,5 терабайт). То есть при шестикратной перезаписи двухтерабайтного диска вы почти наверняка получите одну невосстановимую ошибку. Для бытовых дисков это не проблема. Но если вы каждый месяц переписываете базу данных, то через полгода она может оказаться битой.
Вероятность возникновения невосстановимой ошибки =
(N * (X / 12500 * 12500) / 12500) * 100%
- N — количество дисков в RAID-массиве,
- X — объём одного диска в гигабайтах,
- 12500 — количество бит, на которое приходится 1 невосстановимая ошибка, выраженное в гигабайтах.
Вероятность возникновения невосстановимой ошибки =
(5 * (1000 / 12500 * 12500) / 12500) * 100% = 40%.
А если вы используете 600-гигабайтные диски, то вероятность epic fail при ребилде составляет 24%:
Вероятность возникновения невосстановимой ошибки =
(5 * (600 / 12500 * 12500) / 12500) * 100% = 24%.
У SATA RE и SAS NL уровень невосстановимых ошибок равен 10 -15 , то есть на порядок меньше, чем в обычных SATA. Тогда в нашем примере с RAID 5 получаем:
Для 1-терабайтных дисков вероятность ошибки = 4%.
Для 600-гигабайтных дисков вероятность ошибки = 2,4%.
У SAS-дисков уровень невосстанавливаемых ошибок ещё ниже — 10 -16 :
Для 1-терабайтных дисков вероятность ошибки = 0,4%.
Для 600-гигабайтных дисков вероятность ошибки = 0,24%.
Обратите внимание: вероятность возникновения ошибки пропорциональна количеству дисков в RAID-массиве.
Каким образом в SAS-дисках обеспечивается более низкий уровень ошибок? Magic.
- Размер сектора в SATA-дисках — 512 байт, в SAS-дисках — 520 байт. Дополнительные 8 байт используются для сквозной проверки чётности.
- Другие алгоритмы чтения.
- Дополнительные алгоритмы восстановления данных без участия контроллера.
Операционные системы
На первый взгляд кажется, что использование эмуляции 512-байтного сектора снимает все проблемы с совместимостью, но это не так. Во-первых, сразу же возникает проблема с производительностью. Что произойдет при записи блока размером 512 байт на диск с размером сектора 4096 байт (пусть и эмулирующий наличие секторов 512 байт)? Произойдёт классический процесс read-modify-write, вместо одной операции понадобится две: прочитать сектор 4096 байт, поменять в нём 512 байт (записываемый блок) и записать 4096 байт обратно. Аналогичная проблема проявляется и при отсутствии выравнивания, когда записываемый блок данных может быть достаточно большим и даже кратным 4096 байт, но при этом сдвинут относительно границ реальных секторов:
В современных условиях операции записи блоками меньше 4096 байт встречаются крайне редко, а вот проблема с выравниванием остаётся. Например, в старых Windows (до Windows Server 2008) при установке загрузочный раздел создаётся со смещением в 63 сектора. Так уж исторически сложилось с тех времён, когда BIOS использовал реальную геометрию диска вместо LBA. Разумеется, смещение в 63x512 не делится на 4096, что приводит к нарушению выравнивания для всех последующих разделов и снижению производительности. Впервые на данную проблему обратили внимание в связи с использованием RAID-контроллеров и необходимостью выравнивания разделов по границам страйпа и она была решена в Windows Vista/ Windows Server 2008 (и примерно в то же время — в других ОС) введением выравнивания по границам в 1024КиБ (1МиБ), т.е. первый раздел создается со смещением в 2048 512-байтных секторов.
Почему именно 1МиБ, если подойдёт меньшее смещение (главное — чтобы делилось на 4096 байт)? Просто потому, что нужен запас, ведь помимо физического диска в качестве блочного устройства могут выступать тома на RAID-контроллерах (с размером страйпа по умолчанию, например, у Adaptec в 256КиБ), SSD (с большим размером страниц) или образы дисков при использовании виртуализации, рекомендуемый размер NTFS-кластера для SQL или Exchange равен 64КиБ и т.д.
Проблема номер два — возможная потеря данных для сценариев с синхронной записью. Для ситуаций с записью блока меньше 4096 байт или невыравненного блока синхронной записи по факту не получится. Остаётся «научить» ОС не использовать при записи блоки меньше 4096 байт на диски 512E, но с этим есть определённые проблемы.
Microsoft
- Windows 8, 8.1
- Windows Server 2012, 2012 R2
- Windows 7 w/ MS KB 982018
- Windows 7 SP1
- Windows Server 2008 R2 w/ MS KB 982018
- Windows Server 2008 R2 SP1
- Windows Vista w/ MS KB 2553708
- Windows Server 2008 w/ MS KB 2553708
- Windows 8, 8.1
- Windows Server 2012, 2012 R2
Проверить выравнивание существующих разделов и задать смещение для новых разделов в Windows можно при помощи diskpart. Пример (раздел на диске 0 со смещением в 1024КиБ или 2048 512-байтных секторов):
Проверить проще всего через WMI (пример):
В колонке StartingOffset должно быть 1024КиБ для первого раздела, для остальных — должно делиться на 1024КиБ, это означает, что и на 4096 байт и все другие «хорошие числа» (размеры страйпов и NTFS-кластеров) всё будет делиться.
Напомню, что в современных Windows смещение в 1024КиБ и так используется по умолчанию, так что проверять/выставлять его вручную нужно лишь для ОС из «63-секторной» эпохи. При автоматическом создании GPT-разметки (через Disk Management) на 512N или 512E диске вы увидите смещение для первого раздела в 17КиБ. Это не повод для тревоги, так как это служебный раздел MSR. Первый стандартный раздел будет создан со смещением в 135266304 байт (129МиБ) — прекрасно делится на любое из наших «хороших чисел».
Linux
- RHEL 6.1
- SLES 11 SP2
- Ubuntu 13.10
- Ubuntu 12.04.4
- RHEL 6.1
- SLES 11 SP2
- Ubuntu 13.10
- Ubuntu 12.04.4
Посмотреть размеры физического и логического блоков можно в /sys/block/sdX/queue/physical_block_size и в /sys/block/sdX/queue/logical_block_size соответственно.
GNU Fdisk будет автоматически использовать смещение в 1МиБ при запуске с ключами -c и -u (отключить режим совместимости с DOS и использовать сектор в качестве единицы измерения). Обычный Fdisk не умеет работать с GPT, так что он бесполезен для дисков >2ТиБ, и нужно использовать Parted или GPT Fdisk. Последний по умолчанию использует для 512N/512E дисков нужное нам смещение в 2048 секторов:
Пример для GNU Parted (для 512N/512E дисков):
В LVM всё хорошо: смещение по умолчанию равно 1МиБ и размер PE (physical extent) кратен 1МиБ.
VMware
Статья в базе знаний VMware утверждает, что ни 512E, ни 4KN диски не поддерживаются. Поддержка дисков 4KN заявлена в vSphere 6.0.
С появлением VMFS-5 мы получили единый размер блока — 1МиБ и правильное 1МиБ-смещение для первого раздела. Раньше использовалось не всегда подходящее смещение в 64КиБ. Но всё это не отменяет заявления VMware о том, что 512E диски не поддерживаются. Видимо, это связано с тем, что формат VMDK хранит данные с гранулярностью 512 байт.
Прочие ОС
Mac OSX поддерживает Advanced Format начиная с Tiger. Остаются ещё FreeBSD и прочие *BSD, Oracle Solaris и множество других ОС, но детальное рассмотрение ситуации с Advanced Format дисками в них выходит за рамки данной статьи.
Параллельные и последовательные порты
По способу обмена данными порты ввода-вывода делятся на два типа:
Последовательные порты — противоположность параллельным. Отправка данных происходит по одному биту за раз, что сокращает общее количество сигнальных линий, но усложняет контроллер ввода-вывода. Контроллер передатчика получает машинное слово за раз и должен передавать по одному биту, а контроллер приемника в свою очередь должен получать биты и сохранять в том же порядке.
Small Computer Systems Interface (SCSI) появился в далеком 1978 году и был изначально разработан, чтобы объединять устройства различного профиля в единую систему. Спецификация SCSI-1 предусматривала подключение до 8 устройств (вместе с контроллером), таких как:
- сканеры;
- ленточные накопители (стримеры);
- оптические приводы;
- дисковые накопители и прочие устройства.
Изначально SCSI имел название Shugart Associates System Interface (SASI), но стандартизирующий комитет не одобрил бы название в честь компании и после дня мозгового штурма появилось название Small Computer Systems Interface (SCSI). «Отец» SCSI, Ларри Баучер (Larry Boucher) подразумевал, что аббревиатура будет произноситься как «sexy», но Дал Аллан (Dal Allan) прочитал «sсuzzy» («скази»). Впоследствии произношение «скази» прочно закрепилось за этим стандартом.
В терминологии SCSI подключаемые устройства делятся на два типа:
Используемая топология «общая шина» накладывает ряд ограничений:
- на концах шины необходимы специальные устройства — терминаторы;
- пропускная способность шины делится между всеми устройствами;
- максимальное количество одновременно подключенных устройств ограничено.
Устройства на шине идентифицируются по уникальному номеру, называемому SCSI Target ID. Каждый SCSI-юнит в системе представлен минимум одним логическим устройством, адресация которого происходит по уникальному в пределах физического устройства номеру Logical Unit Number (LUN).
Команды в SCSI отправляются в виде блоков описания команды (Command Descriptor Block, CDB), состоящих из кода операции и параметров команды. В стандарте описано более 200 команд, разделенных в четыре категории:
- Mandatory — должны поддерживаться устройством;
- Optional — могут быть реализованы;
- Vendor-specific — используются конкретным производителем;
- Obsolete — устаревшие команды.
- TEST UNIT READY — проверка готовности устройства;
- REQUEST SENSE — запрашивает код ошибки предыдущей команды;
- INQUIRY — запрос основных характеристик устройства.
Дальнейшее усовершенствование SCSI (спецификации SCSI-2 и Ultra SCSI) расширило список используемых команд и увеличило количество подключаемых устройств до 16-ти, а скорость обмена данными по шине до 640 МБ/c. Так как SCSI — параллельный интерфейс, повышение частоты обмена данными было сопряжено с уменьшением максимальной длины кабеля и приводило к неудобству в использовании.
Начиная со стандарта Ultra-3 SCSI появилась поддержка «горячего подключения» — подключение устройств при включенном питании.
Первым известным SSD диском с интерфейсом SCSI можно считать M-Systems FFD-350, выпущенный в 1995 году. Диск имел высокую стоимость и не имел широкой распространенности.
В настоящее время параллельный SCSI не является популярным интерфейсом подключения дисков, но набор команд до сих пор активно используется в интерфейсах USB и SAS.
Скажите «нет» обычным жёстким дискам
Сразу внесём ясность — обычные SATA не предназначены для использования в серверах. Тому есть несколько причин:
- Низкая устойчивость к вибрациям.
- Высокий уровень невосстанавливаемых ошибок.
- Отсутствие поддержки команд аппаратных RAID-контроллеров.
Совместимость
Прочее ПО
-
. поддерживает диски Advanced Format (512E и 4KN) начиная с версии 2012 revision 1798 Service Pack 2. Более ранние выпуски могут работать с дисками 512E, но Symantec утверждает, что подобное сочетание не поддерживается официально. не поддерживает диски 4KN.
Что такое Advanced Format
Увеличение размера сектора в 8 раз связано с необходимостью повышения эффективности размещения данных на современных дисках. Накладные расходы, связанные с 512-байтной разметкой, начинают мешать дальнейшему увеличению ёмкости HDD. Помимо служебных полей в каждом 512-байтном секторе присутствует поле с кодом коррекции ошибок (ECC) длиной в 50 байт. В 4096-байтном секторе длина ECC-поля составляет 100 байт. Общее эффективность хранения данных удалось улучшить примерно на 10%.
Естественно, поддержка нестандартных секторов требуется со стороны дисковых контроллеров и операционных систем. Для решения проблем с совместимостью был ввёден дополнительный стандарт 512E, который обозначает диски с физическим размером сектора 4096 байт, но при этом эмулирующие обычный размер сектора в 512 байт. Advanced Format диски без эмуляции обозначаются 4KN. Таким образом, сейчас существует три варианта разметки:
Формат | Логический размер сектора | Физический размер сектора |
| 512 байт | 512 байт |
| 512 байт | 4096 байт (4КиБ) |
| 4096 байт (4КиБ) | 4096 байт (4КиБ) |
Заключение
Почти все интерфейсы прошли долгий путь развития от последовательного до параллельного способа передачи данных. Скорости твердотельных накопителей стремительно растут, еще вчера твердотельные накопители были в диковинку, а сегодня NVMe уже не вызывает особого удивления.
Казалось бы, что про диски Advanced Format за последние 4 года успели узнать все. Публикаций действительно много, но настало время рассмотреть все технические подробности и подводные камни в одной большой статье. Речь пойдёт об использовании AF-дисков в серверах, и я заметил, что для большинства администраторов даже в крупных компаниях знание предмета в большинстве случаев сводится к «это как-то связано с современными дисками, но у меня всё работает».
Контроллеры
- Диски 4KN и 512N/512E смешивать в одном массиве нельзя.
- У контроллеров Adaptec и LSI метаданные размещаются в конце диска, пользовательское пространство доступно с LBA0. Это означает, что проблем с выравниванием для 512E дисков не будет.
- Массив из 4KN дисков так же будет иметь физический/логический размер сектора 4КиБ, т.е. для загрузки с них нужны GPT и UEFI.
- Не забывайте вместе с прошивкой обновлять утилиты управления и драйверы.
- Как будет презентоваться LUN, созданный на 512E дисках — 512N или 512E? Из того, что удалось проверить: контроллеры LSI 9260, Adaptec 6-й серии, СХД Infortrend ESDS сообщают 512N (логический/физический блоки 512 байт), т.е. проблема с синхронной записью остаётся. Обязательно используйте write-back кэш (естественно, с защитой) и UPS. Причём не исключено, что при смене прошивки СХД и контроллер могут внезапно повести себя «правильно», и LUN'ы превратятся в 512E со всеми вытекающими последствиями для совместимости.
Adaptec by PMC
- SAS HBA серий 5 и 6: поддерживают 512E, не поддерживают 4KN
- SAS HBA серий 6H и 7H: поддерживают 512E, 4KN — начиная с прошивки 10467.
- RAID контроллеры серий 7 и 8: поддерживают 512E, 4KN — начиная с прошивки 30862.
LSI/Avago
Это свойство как раз и отвечает за презентуемые хосту размеры блоков:
Default (0): при наличии в томе дисков 512E он презентуется как 512E. Если все диски — 512N, тогда том презентуется как 512N
Disabled (1): Том всегда презентуется как 512N несмотря на наличие дисков 512E
Forced (2): Том всегда презентуется как 512E даже при отсутствии дисков 512E
Emulation Type был портирован и на SAS2 контроллеры (LSI 2108/2208), но без значения Forced (2).
Программный RAID в чипсетах Intel (RST/RSTe)
4KN не поддерживается совсем, Intel RST на дисках 512E требует свежих драйверов.
Обзор HP P4000 VSA
Такое семейство продуктов LeftHand раньше ассоциировалось исключительно с дисковыми массивами, самого базового уровня, и использовались лишь для подключения систем хранения данных (SAN) по протоколу ISCSI, но все развивается и не стоит на месте и теперь LeftHand называется после ребрендинга HP StorageWorks P4000, и дополнилось рядом функционала который присутствовал только в топовых решениях high-end класса.
Сама StorageWorks P4000 это два модуля хранения, стоечного вида сервера в которых два процессора архитектуры HP ProLiant , довольно неплохой RAID контроллер, так, что вы легко сможете построить на его базе дисковые raid массивы любой сложности. Жесткие диски тут MDL SAS.
Advanced Format в дисках корпоративного класса. Что нас ждёт?
Речь пойдёт о дисках корпоративного класса последний серий. Десктопные HDD и позиционируемые для NAS или видеонаблюдения сюда не попали.
Вендор | Серия | Форм-фактор | Интерфейсы | Скорость вращения шпинделя, об/мин | Дополнительно | |||
Seagate | Enterprise Performance 10K HDD (10k.8) | 2.5" | SAS | 10000 | Y | Y | Y | для 512N ёмкость ограничена: 600/1200ГБ |
Seagate | Enterprise Performance 15K HDD (15k.5) | 2.5" | SAS | 15000 | Y | Y | Y | 32ГБ встроенного SSD-кэша |
Seagate | Enterprise Capacity 2.5 HDD (V.3) | 2.5" | SAS, SATA | 7200 | Y | Y | ||
Seagate | Enterprise Capacity 3.5 HDD (V.4) | 3.5" | SAS, SATA | 7200 | Y | Y | ||
Seagate | Archive HDD | 3.5" | SATA | 7200 | Y | Позиционируются для архивного применения, меньше MTBF и хуже BER | ||
Seagate | Terascale HDD | 3.5" | SATA | 5900/7200 | Y | Позиционируются для облачного применения, меньше MTBF и хуже BER | ||
HGST | Ultrastar C10K1800 | 2.5" | SAS | 10000 | Y | Y | Y | для 512N ёмкость ограничена: 300/600/900/1200ГБ |
HGST | Ultrastar C15K600 | 2.5" | SAS | 15000 | Y | Y | Y | |
HGST | Ultrastar C7K1000 | 2.5" | SAS | 7200 | Y | |||
HGST | Ultrastar He 8 | 3.5" | SAS, SATA | 7200 | Y | Y | ||
HGST | Ultrastar He 6 | 3.5" | SAS, SATA | 7200 | Y | |||
HGST | Ultrastar 7K6000 | 3.5" | SAS, SATA | 7200 | Y | Y | ||
HGST | MegaScale DC 4000.B | 3.5" | SATA | 5400 | Y | Позиционируются для облачного применения, меньше MTBF и хуже BER | ||
WD | Xe | 2.5"/3.5" | SAS | 10000 | Y | |||
WD | Re | 3.5" | SATA | 7200 | Y | |||
WD | Se | 3.5" | SATA | 7200 | Y | Позиционируются для облачного применения, меньше MTBF и хуже BER | ||
WD | Ae | 3.5" | SATA | 5760 | Y | ? | Позиционируются для архивного применения, меньше MTBF и хуже BER | |
Toshiba | AL13SE | 2.5" | SAS | 10000 | Y | |||
Toshiba | AL13SX | 2.5" | SAS | 15000 | Y | |||
Toshiba | AL13SEL | 3.5" | SAS | 10000 | Y | |||
Toshiba | MG03ACA/MG03SCA | 3.5" | SAS, SATA | 7200 | Y | |||
Toshiba | MG04ACA | 3.5" | SATA | 7200 | Y | Y | ||
Toshiba | MG04SCA | 3.5" | SAS | 7200 | Y | Y | ||
Toshiba | MC04ACA | 3.5" | SATA | 7200 | Y | Позиционируются для облачного применения, меньше MTBF и хуже BER |
SSD имеют свои особенности. Читать и записывать данные можно страницами, размер которых составляет 2–4–8–16КиБ в зависимости от архитектуры SSD. При этом для записи нужно обеспечить предварительное стирание ячеек, которое осуществляется не постранично, а блоками по несколько сотен страниц. Например, Samsung 840 EVO имеет блоки по 2МиБ, каждый из которых состоит из 256-ти страниц по 8КиБ. При этом, естественно, любой презентуемый хосту размер блока — 512 или 4096 байт — будет абстракцией.
Некоторые из современных SAS/SATA SSD эмулируют 512E-диск, но большая часть из соображений совместимости — 512N. Каких-либо особых мер в связи с этим предпринимать не требуется, так как в SSD корпоративного класса содержимое кэша обязательно защищается от потери питания. Достаточно обеспечить выравнивание по размеру страницы.
Некоторые PCI-E SSD, например, производства Fusion IO дают возможность при помощи фирменных утилит изменить при форматировании размер логического сектора, т.е. переключаться между 512E и 4KN режимами. Для некоторых SSD с интерфейсом SAS это тоже возможно, например, Seagate 1200 поддерживает изменение размера сектора обычным sg_format. Переход на 4КиБ сектор в некоторых сценариях может существенно поднять производительность.
SATA или SAS?
Интерфейс SATA является развитием IDE, который позднее был переименован в PATA. То есть этот интерфейс изначально ориентирован на использование в бытовых компьютерах, а также в промышленных системах с умеренными требованиями к производительности и надёжности. В то же время SAS — это наследник классического «серверного» интерфейса SCSI.
Изначально интерфейс SAS имел более высокую пропускную способность, чем SATA. Но прогресс не стоит на месте, и третье поколение SATA III имеет максимальную пропускную способность на уровне 6 Гбит/сек, как и второе поколение SAS. Однако на рынке уже доступны серверы с SAS-контроллером третьего поколения, с пропускной способностью до 12 Гбит/сек.
Для подключения SAS-дисков сервер должен быть оснащён соответствующим контроллером. При этом обеспечивается обратная совместимость интерфейсов: к SAS-контроллеру можно подключить SATA-диски, а наоборот — нельзя.
SAS обеспечивает полнодуплексный обмен данными: жёсткий диск единовременно обрабатывает по одной команде на чтение и запись, а SATA-диск — либо на чтение, либо на запись. Но это преимущество будет заметно только при большом количестве дисков, если сравнивать SAS NL и SATA RE.
Если подвести промежуточный итог: SATA-диски хороши для создания объёмных хранилищ, от которых не требуется максимальной производительности. А если вам нужно выжать из дисковой подсистемы всё возможное, то ваш выбор — SAS.
Устойчивость к вибрациям
Для решения более-менее требовательных задач нет смысла ставить только один диск. Чтобы обеспечить минимальный уровень надёжности хранения данных, нужно не менее двух накопителей, объединённых в RAID. Но когда в корзине собрано 4 и более устройств, то возникающие от их работы вибрации влияют на стабильность вращения шпинделей и точность позиционирования головок. Поэтому серверные жёсткие диски имеют ряд конструктивных отличий от бытовых:
- Усиленный вал шпинделя, более устойчивый к внешним воздействиям.
- Дополнительный контроль вибрации.
- Технологии, существенно повышающие точность позиционирования и высоту полёта головок над поверхностью «блинов».
- Богатые возможности самодиагностики, позволяющие вовремя уведомить о скором выходе диска из строя.
Удаленные накопители
При создании больших хранилищ данных появилась потребность в протоколах, позволяющих подключить накопители, расположенные вне сервера. Первым решением в этой области был Internet SCSI (iSCSI), разработанный компаниями IBM и Cisco в 1998 году.
Идея протокола iSCSI проста: команды SCSI «оборачиваются» в пакеты TCP/IP и передаются в сеть. Несмотря на удаленное подключение, для клиентов создается иллюзия, что накопитель подключен локально. Сеть хранения данных (Storage Area Network, SAN), основанная на iSCSI, может быть построена на существующей сетевой инфраструктуре. Использование iSCSI значительно снижает затраты на организацию SAN.
У iSCSI существует «премиальный» вариант — Fibre Channel Protocol (FCP). SAN с использованием FCP строится на выделенных волоконно-оптических линиях связи. Такой подход требует дополнительного оптического сетевого оборудования, но отличается стабильностью и высокой пропускной способностью.
Существует множество протоколов для отправки команд SCSI по компьютерным сетям. Тем не менее, есть только один стандарт, решающий противоположную задачу и позволяющий отправлять IP-пакеты по шине SCSI — IP-over-SCSI.
Большинство протоколов для организации SAN используют набор команд SCSI для управления накопителями, но есть и исключения, например, простой ATA over Ethernet (AoE). Протокол AoE отправляет ATA-команды в Ethernet-пакетах, но в системе накопители отображаются как SCSI.
С появлением накопителей NVM Express протоколы iSCSI и FCP перестали удовлетворять быстро растущим требованиям твердотельных накопителей. Появилось два решения:
- вынос шины PCI Express за пределы сервера;
- создание протокола NVMe over Fabrics.
Протокол NVMe over Fabrics стал хорошей альтернативой iSCSI и FCP. В NVMe-oF используются волоконно-оптическая линии связи и набор команд NVM Express.
Стандарты iSCSI и NVMe-oF решают задачу подключения удаленных дисков как локальные, а компания Intel пошла другой дорогой и максимально приблизила локальный диск к процессору. Выбор пал на DIMM-слоты, в которые подключается оперативная память. Максимальная пропускная способность канала DDR4 составляет 25 ГБ/с, что значительно превышает скорость шины PCIe. Так появился твердотельный накопитель Intel® Optane™ DC Persistent Memory.
Для подключения накопителя в DIMM слоты был изобретен протокол DDR-T, физически и электрически совместимый с DDR4, но требующий специального контроллера, который видит разницу между планкой памяти и накопителем. Скорость доступа к накопителю меньше, чем к оперативной памяти, но больше, чем к NVMe.
Протокол DDR-T доступен только с процессорами Intel® поколения Cascade Lake или новее.
Работа в RAID-массиве
Ещё один важный недостаток обычных SATA — отсутствие функции устранения ошибок при работе в RAID-массиве. Допустим, вы понадеялись на бэкап, и ради экономии построили RAID из обычных SATA. При возникновении ошибки жёсткий диск многократно пытается считать сбойный блок. И пока он это делает, он не отвечает на сигналы RAID-контроллера. Тот воспринимает это как выход жёсткого диска из строя, исключает его из массива и пытается восстановить. Иными словами, при возникновении ошибки из массива выпадает весь диск.
В случае с SATA RE, SAS NL и SAS ситуация будет развиваться иначе. Обнаружив ошибку, диск сообщает контроллеру о наличии сбойного блока. Контроллер запрашивает этот блок у других дисков в массиве и передаёт на сбойный диск. При этом устройство не выпадает из массива, и падения производительности не происходит.
Что такое MDL SAS и Enterprise SAS диск
HP P4000 VSA имеет диски нескольких уровней, во первых это двухпортовые SAS диски, у них два вида
Отличия у них в нескольких параметрах. Во первых MDL SAS это диск у которого SATA механика и интерфейс, шпиндель в дисках MDL SAS имеет скорость вращения 7200 оборотов в минуту. Объем дисков варьируется от 750 до 2000 гигабайт.
Enterprise SAS это диск с SAS механикой и интерфейсом и у них шпиндель уже крутится со скоростью в два раза больше, 15 000 оборотов. А так же больше запас прочности, как следствие надежность системы в целом. Объем у них заметно меньше от 300 до 600 гигабайт.
Продолжаем рассматривать HP P4000 VSA и его схему подключения, напомню что его модули по Ethernet сети и протоколу iSCSI, объединяются в кластер, и его уже ресурсы:
- RAM > оперативная память
- Дисковое пространство
- кэш-память
- сетевые интерфейсы
закладываются в общий пу и потом дербанятся, все кому что нужно. Так как у каждого узла две сетевые карты, то можно сделать отказоустойчивость между узлами кластера. Если брать технологии кластера HP P4000, то там можно из физических дисков разных узлов, создать общие дисковые тома. Управлять данной схемой можно из утилиты Centralized Management Console (CMC), она есть как для Windows так и для Linux версий.
В прошлой части цикла «Введение в SSD» мы рассказали про историю появления дисков. Вторая часть расскажет про интерфейсы взаимодействия с накопителями.
Общение между процессором и периферийными устройствами происходит в соответствии с заранее определенными соглашениями, называемыми интерфейсами. Эти соглашения регламентируют физический и программный уровень взаимодействия.
Физическая реализация интерфейса влияет на следующие параметры:
- пропускная способность канала связи;
- максимальное количество одновременно подключенных устройств;
- количество возникающих ошибок.
SATA или SAS?
Интерфейс SATA является развитием IDE, который позднее был переименован в PATA. То есть этот интерфейс изначально ориентирован на использование в бытовых компьютерах, а также в промышленных системах с умеренными требованиями к производительности и надёжности. В то же время SAS — это наследник классического «серверного» интерфейса SCSI.
Изначально интерфейс SAS имел более высокую пропускную способность, чем SATA. Но прогресс не стоит на месте, и третье поколение SATA III имеет максимальную пропускную способность на уровне 6 Гбит/сек, как и второе поколение SAS. Однако на рынке уже доступны серверы с SAS-контроллером третьего поколения, с пропускной способностью до 12 Гбит/сек.
Для подключения SAS-дисков сервер должен быть оснащён соответствующим контроллером. При этом обеспечивается обратная совместимость интерфейсов: к SAS-контроллеру можно подключить SATA-диски, а наоборот — нельзя.
SAS обеспечивает полнодуплексный обмен данными: жёсткий диск единовременно обрабатывает по одной команде на чтение и запись, а SATA-диск — либо на чтение, либо на запись. Но это преимущество будет заметно только при большом количестве дисков, если сравнивать SAS NL и SATA RE.
Если подвести промежуточный итог: SATA-диски хороши для создания объёмных хранилищ, от которых не требуется максимальной производительности. А если вам нужно выжать из дисковой подсистемы всё возможное, то ваш выбор — SAS.
Заключение
При выборе жёстких дисков необходимо в первую очередь отталкиваться от задач, которые будет выполнять сервер:
Сервисы Microsoft
Hyper-V
Несмотря на то, что диски 512E поддерживаются в Windows Server 2008 и 2008 R2 (см. в таблице требования по установленным KB), в Hyper-V появляется проблема: формат файлов виртуальных дисков VHD использует 512-байтные структуры для динамических («тонких») и дифференциальных VHD, что, естественно приводит к регулярным read-modify-write. Ситуация усугубляется тем, что для гостевой ОС виртуальный диск выглядит как имеющий физические сектора 512 байт. Используйте фиксированные VHD, но по-возможности не используйте диски 512E для размещения VHD-файлов.
В Windows Server 2012 появился формат VHDX, который не имеет вышеописанных проблем (его можно создать в любом виде — 512N/512E/4KN).
Exchange Server
- Все диски, используемые в группе обеспечения доступности (Database Availability Group, DAG) Exchange для хранения баз и логов, должны использовать одинаковый физический размер сектора.
- Диски 4KN не поддерживаются
- Диски 512E поддерживаются начиная с Exchange 2010 Service Pack 2
SQL Server
Ситуация та же, что и для Exchange Server — в отказоустойчивых конфигурациях для баз и логов на всех узлах должы использоваться диски с одинаковым физическим размером сектора.
При использовании Storage Spaces возникает интересная ситуация: презентуемый размер физического сектора оказывается равным 4КиБ вне зависимости от того, из каких дисков собран Storage Spaces (том Storage Spaces можно создать из разных дисков — 512N и 512E, смешивать с 4KN, естественно, нельзя, кроме случаев использования tiering'а с SSD). Формат VHDX (виртуальный диск) по умолчанию создаётся как 512E. В этом можно убедиться, запустив fsutil fsinfo ntfsinfo :
При использовании VHDX на томе Storage Spaces (или аппаратном RAID), состоящем из 4KN дисков, сам VHDX тоже желательно сделать 4KN:
Безопасно ли это для SQL и других приложений, использующих синхронную запись? Ответ — да, так как большая гранулярность хранения не нарушает целостности данных, на производительность это тоже не влияет, так как 4096 делится на 512.
Сервисы, использующие ESENT
Не совсем актуальная проблема в Windows Server 2008. Сервисы, использующие в работе Extensible Storage Engine API (AD, WINS, DHCP) могут упасть при изменении размера физического сектора (например, при миграции с 512N-диска на 512E). Подробное описание и хотфикс смотрите тут.
Проверяйте гарантию
Если вы решили не идти на поводу у вендоров и собираетесь купить «неродные» жёсткие диски, то сначала обязательно уточните у продавца: кто предоставляет гарантию? Дело в том, что многие магазины не предоставляют гарантию на жёсткие диски, ссылаясь на гарантию производителя. Но здесь есть тонкий момент: к примеру, у некоторых моделей Seagate гарантийный период начинается с момента производства. Поэтому не исключена ситуация, что вы купите абсолютно новые диски, на которые уже закончилась гарантия производителя.
Чтобы не испытать этот неловкий момент, постарайтесь перед покупкой проверить гарантию конкретных экземпляров на сайтах производителей:
Миф о брендах
Наконец, самый главный вопрос: нужно ли покупать «родные» диски?
Не секрет, что HP, IBM и DELL жёсткие диски не производят. Они покупают их у сторонних производителей, после чего тестируют, перепрошивают и клеят свои логотипы.
C одной стороны, такие диски имеют ряд преимуществ:
- прошивка (firmware) учитывает особенности контроллеров тех или иных моделей серверов,
- дополнительный контроль качества и проведение стресс-тестов уменьшают вероятность приобретения экземпляров со скрытыми дефектами,
- на «фирменные» диски предоставляется гарантия вендора и полноценная поддержка.
Как вы понимаете, такая разница в цене далеко не для всех оправдывается обещаниями повышенной надёжности. Поэтому наверняка многие слышали о том, что «неродные» жёсткие диски работают в серверах HP, IBM и DELL нестабильно или слишком медленно. Кто-то даже пугает, что с «левыми» дисками сервер не заведётся.
Откуда растут ноги у этих утверждений?
В подавляющем большинстве серверов применяются технологии повышения производительности дисковой подсистемы. Именно с этой целью вендоры перепрошивают жёсткие диски — чтобы обеспечить поддержку этих технологий. Если же вы поставите «неродные» диски, то просто не сможете воспользоваться фирменными ноу-хау, не более того.
Также раньше вендоры искусственно заставляли использовать «фирменные» накопители, применяя блокировки на уровне контроллеров. В конце концов, гнев народных масс вынудил со временем отказаться от этой порочной практики. Сегодня проблемы чаще всего возникают с относительно старыми моделями серверов. И решается это простой заливкой в контроллер свежей прошивки. Хотя есть и просто капризные модели контроллеров, например, P410 в серверах HP.
Как показывает практика, «неродные» жёсткие диски без затруднений работают:
- в серверах HP — как минимум с поколения Gen6,
- в серверах IBM — как минимум с поколения М2,
- в серверах DELL — как минимум с 10 поколения.
-
(бывшие Seagate Constellation ES) (бывшие Seagate Savvio)
- Toshiba AL13SEB
- Toshiba AL13SXB
Читайте также: