Patrol read raid что это
Есть сервер Dell R720 со встроенным рейд-контроллером PERC H710P Mini. Недавно создал raid1 из 2 sata-дисков Seagate Exos X18 16TB. После нескольких часов работы перешел в failed один из дисков. После перезагрузки сервера диск стал ready, начался ребилд. Потом история повторилась через несколько дней, только уже два диска "вылетели". После перезагрузки сервера диски опять перешли в состояние ready, начался ребилд. Сервер работает от ИБП.
Есть сервер Dell R720 со встроенным рейд-контроллером PERC H710P Mini (Embedded). На нем уже з года беспроблемно работает массив raid10 из 4 sas-дисков по 4Тб и полгода raid1 из 2 sata-дисков 8Тб. 2 месяца назад создал raid1 из 2 sata-дисков Seagate Exos X18 16TB.
После копирования где-то 1 Тб информации 1 диск из 16тб массива перешел в состояние failed. Вынул диск из сервера и сдал в сервис. Сервис ответил "диск рабочий" и вернул обратно. Поставил диск в сервер, сделал рейд1, после нескольких часов работы тот же диск "вылетел" в failed. Проблемный диск? Или контроллер? Поменял два диска из этого массива местами в сервере. После двух дней работы (1,5 Тб информации) оба диска ЖД этого массива перешли в состоянии failed. Перезагрузил сервер, оба диска перешли в состояние Ready, пошел процес ребилда виртуального диска. Сервер все это время работал от ИБП, перебоев электричества не было.
Первый раз "проблемный" диск был в корзине 1, после смены местами другой диск, который сейчас стал в корзине 1 в состоянии ребилда, парный диск в состоянии "not applicable", что заставляет задуматься: а не в контроллере ли дело?
Сервер работает под управлением Windows Server 2012 R2.
Версии прошивки контроллера:
Firmware Version 21.0.2-0001
Driver Version 6.600.21.08
2022-02-06T20:12:16-0600 PDR4
Disk 3 in Backplane 1 of Integrated RAID Controller 1 returned to a ready state.
2022-02-06T20:12:15-0600 PDR4
Disk 1 in Backplane 1 of Integrated RAID Controller 1 returned to a ready state.
2022-02-06T20:10:09-0600 PDR1017
Drive 3 in disk drive bay 1 is operating normally.
2022-02-06T20:10:07-0600 PDR1017
Drive 1 in disk drive bay 1 is operating normally.
2022-02-06T20:09:32-0600 SYS1003
System CPU Resetting.
2022-02-06T20:09:23-0600 SEL9901
OEM software event.
2022-02-06T20:09:22-0600 OSE0003
An OS graceful shut-down occurred.
2022-02-06T20:07:31-0600 VME0007
Virtual Console session created.
2022-02-06T20:07:31-0600 VME0001
Virtual Console session started.
2022-02-06T20:07:31-0600 USR0030
Successfully logged in using root, from ip and Virtual Console.
2022-02-06T20:05:35-0600 USR0030
Successfully logged in using root, from ip and GUI.
2022-02-06T19:57:21-0600 USR0030
Successfully logged in using root, from ip and GUI.
2022-02-06T16:12:24-0600 USR0032
The session for root from ip using GUI is logged off.
2022-02-06T15:38:50-0600 USR0030
Successfully logged in using root, from ip and GUI.
2022-02-05T23:39:44-0600 CTL38
The Patrol Read operation completed for Integrated RAID Controller 1.
2022-02-05T23:39:44-0600 VDR31
Controller cache is preserved for missing or offline Virtual Disk 2 on Integrated RAID Controller 1.
2022-02-05T23:39:44-0600 PDR60
Error occurred on Disk 3 in Backplane 1 of Integrated RAID Controller 1 : (Error 2).
2022-02-05T23:39:44-0600 VDR7
Virtual Disk 2 on Integrated RAID Controller 1 has failed.
2022-02-05T23:39:43-0600 PDR3
Disk 3 in Backplane 1 of Integrated RAID Controller 1 is not functioning correctly.
2022-02-05T03:00:01-0600 CTL37
A Patrol Read operation started for Integrated RAID Controller 1.
2022-02-04T23:53:04-0600 PDR1001
Fault detected on drive 1 in disk drive bay 1.
2022-02-04T23:52:57-0600 VDR8
Virtual Disk 2 on Integrated RAID Controller 1 is degraded either because the physical disk drive in the drive group is removed or the physical disk drive added in a redundant virtual drive has failed.
2022-02-04T23:52:57-0600 PDR3
Disk 1 in Backplane 1 of Integrated RAID Controller 1 is not functioning correctly.
Что делать? Выкинуть диски? Купить другой контроллер?
Скоро приедет еще один сервер бу, сделаю бэкап и попробую обновить рейд-контроллер, не факт что поможет.
Всем привет, давно хотел написать для себя напоминалку, по поводу того какие виды кэша на рейд контроллерах LSI и Intel бывают, и какие настройки лучше всего выставлять для достижения максимальной производительности на ваших RAID контроллерах. Сразу хочу отметить, что если у вас есть запас времени, перед, тем как отдать сервер в продашен заказчику, то не поленитесь все же провести несколько тестов с разными настройками, и не забывайте, до их начала обновить все прошивки на оборудование и RAID контроллер.
Где скачать LSI Storage Authority
Для того, чтобы загрузить последнюю версию LSA вам необходимо зайти на сайт Lenovo, которой на текущий момент принадлежит бизнес LSI/Avago контроллеров, это долгая история поглощений.
В поисковую строку вводим LSI Storage Authority и нажимаем найти.
Переходим на вкладку загрузки и выбираем версию под вашу операционную систему, я буду устанавливать для Windows.
На текущий момент последней версией является 004.189.000.000. Она рассчитана на операционные системы Windows Server 2012 R2 до Windows Server 2019.
Распаковываем дистрибутив LSA и запускаем для последующей установки.
Оптимальные настройки для HDD
Размер stripe 256 kb, включение disk Cache Policy включен, выбран I/O Policy Direct IO, нужно дать закончить lun инициализацию
MegaRAID Settings for Maximum HDD Performance
Оптимальные настройки для HP контроллеров
Настройка RAID контроллера для лучшей производительности
Любой инженер по системам хранения данных, хочет чтобы его инфраструктура работала как можно быстрее и использовала весь функционал заложенный в ней. Каждый вендор RAID контроллеров, имеет некий best prictice для своей продукции, давайте сегодня рассмотрим их на примере контроллеров Intel и LSI.
I/O Policy (Политика ввода/вывода)
Политика ввода/вывода определяет, будет ли RAID контроллер сохранять данные в кэше, который может уменьшить время доступа к ним при последующих запросах на чтение сделаными в те же самые блоки данных.
Политика direct IO : чтение происходит с дисков. Прямой режим I/O рекомендуется в большинстве случаев. Большинство файловых систем и множество приложений имеют свой собственный кэш и не требуют кэширования данных на уровне контроллера RAID.
Политика Cached IO : При ее включении чтение происходит с дисков, но прочитанные данные одновременно кладутся в кэш. Запросы тех же данных в последствии берутся из кэша. Этот режим может потребоваться, если приложение или файловая система не кэширует запросы чтения
Disk cache policy : это политика кэша диска. Если ее включить то на дисках будет храниться дополнительный кэш, это будет влиять на скорость записи в худшую сторону, но будут быстрее считывание, так же при включенном режиме есть риск потери данных.
Обзор настроек контроллера в LSA
Щелкаем по имени вашего контроллера, в моем примере, это LSI MegaRAID SAS 9280-16i4e.
В пункте "Controller Info" нажмите "+", чтобы развернуть его сводные данные.
Ниже будет раздел "Premium Features", где вы можете при наличии ключей активировать дополнительные плюшки.
В правой части экрана будут кнопки действий, тут нас будет интересовать две:
- Configure - которую мы уже видели, она нужна для удаления текущей конфигурации и создания новой
- More Action - она состоит из:
- Schedule Consistency Check - включение или отключение задания проверки целостности, которая будет запускаться в фоновом режиме и проверять все ли хорошо. Она конечно полезна, но кушает лишние IOPS.
- Set Patrol Read Properties - Выберите режим работы для чтения поиска ошибок из раскрывающегося списка Set Patrol Read Mode.
- Automatic - чтение выполняется автоматически в указанный вами промежуток времени.
- Manual - чтение патрулирования запускается только тогда, когда вы запускаете его вручную, выбрав "Начать чтение" на панели управления контроллера.
- Disable - чтение не запускается.
- Set Adjustable Task Rate - регулировка скорости при:
- Rebuild Rate - Скорость восстановления - введите число от 0 до 100, чтобы контролировать скорость, с которой восстановление выполняется на диске, когда это необходимо. Чем выше число, тем быстрее будет происходить перестройка (и в результате скорость ввода-вывода может быть ниже).
- Patrol Rate - Скорость патрулирования - введите число от 0 до 100, чтобы контролировать скорость, с которой выполняются патрульные чтения. Патрульное чтение контролирует диски, чтобы найти и решить потенциальные проблемы, которые могут вызвать сбой диска. Чем выше число, тем быстрее будет происходить считывание патруля (и в результате скорость ввода-вывода может быть ниже).
- BGI Rate (частота фоновой инициализации) - введите число от 0 до 100, чтобы контролировать скорость, с которой виртуальные диски инициализируются в фоновом режиме. Фоновая инициализация устанавливает зеркальное отображение или четность для виртуального диска RAID, одновременно предоставляя полный доступ к виртуальному диску. Чем выше число, тем быстрее произойдет инициализация (и в результате скорость ввода-вывода может быть ниже).
- Consistency Check Rate - Проверка согласованности - введите число от 0 до 100, чтобы контролировать скорость, с которой выполняется проверка согласованности. Проверка согласованности сканирует данные согласованности на отказоустойчивом виртуальном диске, чтобы определить, не повреждены ли эти данные. Чем выше число, тем быстрее выполняется проверка согласованности (и в результате скорость ввода-вывода может быть ниже).
- Reconstruction Rate - Скорость реконструкции. Введите число от 0 до 100, чтобы контролировать скорость, с которой происходит реконструкция виртуального диска. Чем выше число, тем быстрее происходит реконструкция (и в результате скорость ввода-вывода может быть ниже).
- Manage Power Save Settings - Набор функций MegaRAID Dimmer Switch (энергосбережение) снижает энергопотребление устройств, подключенных к контроллеру MegaRAID, что помогает более эффективно распределять ресурсы и снижает стоимость.
- Unconfigured Drives - Установите флажок, чтобы разрешить контроллеру включить не настроенные диски в режим энергосбережения.
- Hot Spare Drives - Установите флажок, чтобы разрешить контроллеру включить диски горячего резервирования для перехода в режим энергосбережения.
Разобравшись с кнопками действий, посмотрим информацию о виртуальных дисках и физических дисках. Для этого загляните в соответствующую область. Как видим у меня есть три Virtual Drives.
На каждом есть вкладка "Physical Drives", позволяющая посмотреть из каких физических дисков состоит данный массив. Например посмотрим состав DG_2. Вижу, что это 6 SSD дисков. Выбрав любой из них, я могу посмотреть все его характеристики: Статус, Product ID, Vendor ID, Serial Number, Device ID, объем, температура и многое другое. Тут же вы можете перевести его в оффлайн, разметить.
Общие понятия по видам кэш
Существует три разновидности cache на RAID контроллерах:
- read policy
- write policy
- i/o policy
Рассмотрим более детально, что из себя представляет каждая политика кэширования.
Оптимальные настройки для SSD
Размер stripe 256 kb, включение disk Cache Policy включен, выбран I/O Policy Direct IO, нужно дать закончить lun инициализацию, режимы записи для разных видов RAID разные.
MegaRAID Settings for Maximum SSD Performance
Если вам позволяет время то советую протестировать все возможные варианты кэширования для вашего RAID контроллера
Read policy (Политика чтения)
Политика Read Ahead Policy: При ее включении контроллер начинает считывать последовательно сектора на диске, находящиеся за сектором с которого извлекается информация. При низкой фрагментации данная политика позволяет увеличить скорость чтения. Каждая операция чтения будет потреблять больше ресурсов жесткого диска, но если запросы на чтение последовательные это может существенно уменьшить количество запросов на чтение на жесткие диски и может существенно повысить производительность. Этот параметр будет работать только если типичный размер запроса на чтения меньше, чем ширина полосы пропускания.
Политика No Read Ahead (Normal) : При данном режиме контроллер не будет считывать последовательно данные, данный режим предпочтительнее когда будут производиться рандомные (случайные) чтения. Также этот режим рекомендуется при измерении последовательного чтения с помощью I/O meter под Windows.
Политика Adaptive Read Policy : по сути политика адаптивного чтения при которой контроллер запускает политику упреждающего чтения только после того, как две последние операции запрашивали доступ к последовательно идущим блокам данных. Если далее идут блоки рандомно разбросанные по дисковой подсистеме контроллер возвращается в нормальный режим работы. Этот режим рекомендуется использовать, если нагрузка на RAID контроллере подразумевает смешанные и последовательные операции.
Установка утилиты LSA
Запускаем файл setup.exe
Если у вас не установлены компоненты Microsoft Visual C++ 2010, то они будут доставлены, нажимаем кнопку "Install".
Откроется окно установки модуля OpenSLP 2, нажимаем "Next".
Принимаем лицензионное соглашение "I accept the terms in the License Agreement".
Достаточно будет выбрать обычную установку. нажмите "Typical".
Нажимаем кнопку "Install". Все OpenSLP 2 установлен.
Когда нужные компоненты установлены, можно переходить к инсталляции непосредственно LSI Storage Authority. На первом окне мастера просто нажмите "Next".
Принимаем лицензионное соглашение.
Можете при желании заполнить информацию, о пользователе.
Далее вы можете при желании поменять каталог установки, по умолчанию, это C:\Program Files (x86)\LSI\LSIStorageAutority\
Далее вам необходимо выбрать тип установки LSI Storage Authority, тут четыре варианта:
- Gateway - данный режим установит все компоненты LSA и позволит вам с данного сервера подключаться к другим
- StandAlone - будут установлены компоненты необходимые для работы , только с текущим сервером.
- DirectAgent - тут будут установлены компоненты, только для удаленного управления
- Light Weight Monitor (LWM) - будут установлены минимальные функции для мониторинга
Я выбираю полный режим Gateway.
Обратите внимание на порты по умолчанию, по которым работает LSI Storage Authority, это веб-порт подключения 2463 и LSA Server Port 9000. При желании вы можете их изменить.
Далее вы можете выбрать режим логирования и оповещения, я оставлю "Start From Now"
Завершаем установку кнопкой "Install"
У вас на рабочем столе появится значок Launch LSA.
Указываем логин и пароль, при желании вы можете указать и доменные данные Active Directory.
В результате вы попадаете на общий экран управления вашим контроллером.
В пункте "Select Controller", позволяет вам выбрать нужный RAID контроллер, если на сервере их установлено несколько.
В моей системе представлен контроллер Controller ID: 0 LSI MegaRAID SAS 9280-16i4e. Тут я сразу вижу:
- Серийный номер
- SAS Adress
- Alarm - позволяющая одним кликом включить оповещение звуковым сигналом
- Driver Version - версию драйвера
Справа вы обнаружите полезные кнопки:
- View Event Log - перебросит вас в журнал событий, где вы сможете отслеживать все, что происходит на вашем RAID контроллере. Тут вы можете их зачистить, и скачать.
Вот так выглядит скачанный лог
- Download Diagnostics - скачает те же логи
- Configure - Позволит очистить конфигурацию контроллера, найти потерянную конфигурацию "Foreign Configuration"
- Update Firmware - позволит обновить прошивку. Тут вам необходимо нажать кнопку "Browse", выбираете прошивку и нажимаете "Update".
Write policy (Политика записи)
Политика W rite-Through : Включая данную политику контроллер начинает посылает сигнал о завершении записи только тогда, когда информация упадет на физические носители, т.е. 100 процентов будет уже на жестких дисках. Обеспечивает более высокую безопасность. Данный режим не использует кэш для ускорения записи, и будет медленнее других, однако позволяет так же достичь хороших показателей при RAID 0 и RAID 10.
Политика Write-Back : Включая данный режим политика кэширования RAID контроллера начинает посылать сигнал о завершении записи только тогда, когда информация попадает в кэш контроллера, но еще не записана на дисковый массив. Обеспечивает более высокую прозводительность чем при политике write-through. Приложение продолжает работать, не дожидаясь, чтобы данные были физически записаны на жесткие диски. Но есть одно большое, но если во время работы RAID контроллера в таком режиме у вас пропадет электричество, то с 99 процентной вероятностью вы потеряете данные, для предотвращения этого есть BBU батарейки или модули защиты данных, так же советую проверить что у вашего сервера есть UPS (источник бесперебойного питания) и дублирующее подключение питания от блока питания.
Политика Write-Back with BBU : Данный режим это все тот же Write-Back, но разница в том, что у нас есть батарейка BBU, которая предотвращает потерю данных при выключении электропитания.
BBU или Battery Backup Unit (Модуль Резервной Батареи). BBU дает батарейную защиту питания для cache RAID контроллера. В случае сбоя питания, BBU поможет сохранить данные в кэше.
Что такое LSI Storage Authority Software?
LSA (LSI Storage Authority Software) - это утилита Windows/Linux предназначенная для создания, конфигурирования RADI массивов на RAID контроллерах LSI/Avago. Умеющая управлять практически любыми его настройками и функциями, например выбор кэширования, размер страйпа, настройка оповещений, фоновая проверка ошибок на предмет наличия битых секторов, одним словом это комбайн для управления вашим контроллером. LSA пришла на смену утилите LSI MSM, которую мы ранее с вами устанавливали и решали кучу багов и разного рода проблем, например "unable to connect to cimom server ". Огромным преимуществом LSI Storage Authority Software перед старым LSI MSM, это наличие веб-интерфейса, что позволяет управлять всеми настройками из браузера, с любого устройства, что согласитесь дает системному администратору больше гибкости в плане удобства, так и с точки зрения безопасности.
Оптимальные настройки для контроллеров Intel
Ниже представлена таблица с рекомендуемыми настройками для контроллеров Intel, для достижения максимальной производительности. О таких параметрах как Stripe size, Virtual Drive initialization, Consistency Check, Patrol Read мы поговорим ниже. Как видите лучшим режимом чтения является Adaptive Read Ahead, а режимом записи Write Back.
Факторы влияющие на производительность
Рассмотрим что такое Stripe size, Virtual Drive initialization, Consistency Check, Patrol Read.
Virtual Drive initialization - это зануление, блоков раздела, перед тестирование скорости советую дождаться полной инициализации. По времени занимает по разному все зависит от размеров массива.
Stripe size - Размер блока данных одной ячейки раздела, по сути карта как данные распределены по жестким дискам. Размер страйпа может иметь большое влияние на
Конфигурирование RAID для оптимальной производительности и других факторов эффективности. Как правило при последовательных данных увеличить скорость RAID контроллера можно с помощью размеров stripe 512 kb или 1 mb. При случайном виде доступа лучше 16 кб, все зависит от того какое По у вас будет крутиться на данном разделе. Но в большинстве случаев лучше оставить стандартный размер, предлагаемый производителем.Consistency Check - Проверка целостности является важной функцией, которая помогает обнаружить несоответствия в данных, хранящихся на жестких дисках в RAID массивах и выявляет возможные повреждения данных.
Проверка целостности генерирует значительное количество запросов к диску, которые могут уменьшить производительность RAID. В идеале ее вообще отключить, но этим вы жертвуете оповещением о ранних проблемах с дисками.Patrol Read - помогает обнаруживать и исправлять плохие блоки на жестких дисках и предотвращать возможную потерю данных. Patrol Read генерирует значительное количество запросов к диску, которые могут уменьшить производительность RAID контроллера.
Вы должны включить или отключить Patrol Read в зависимости от цели вашей работы
измерения.Оптимальные настройки для контроллеров LSI
Ниже представлена таблица с рекомендуемыми настройками для контроллеров LSI, для достижения максимальной производительности. Будут рассмотрены сводные таблицы для HDD и для SSd дисков.
Настройка уведомлений в LSA
Настроить какие оповещения стоит логировать и проводить оповещение в LSI Storage Authority находится в настройках, которые можно найти на против имени вашей учетной записи. Выбрав пункт "Settings".
Вкладка "Alert Settings" позволяет удобно выставить галочки на против того типа событий, которые следует логировать и посылать по почте.
Mail Server позволяет вам задать учетную запись от имени которой будут отправляться письма с оповещениями.
На вкладке "Email" вы можете составить список email адресов на которые нужно будет высылать оповещения.
Горячая замена представляет собой замену вручную замещаемого элемента в дисковой подсистеме
на неисправный, когда замену можно провести пока система работает (выполняет обычные функции).Объединительная плата или корпус должны поддерживать горячую замену
для того, чтобы контроллеры PERC 5 поддерживали горячую замену.
Убедитесь, что диски SAS заменены на диски SAS, а диски SATA заменены
Во время замены диска убедитесь, что новый диск имеет такую же или большую
емкость, что и заменяемый диск.
Обнаружение отказа жесткого диска
Микропрограмма автоматически обнаруживает и восстанавливает отказавшие физические диски.
Автоматическое восстановление можно проводить в прозрачном режиме с помощью горячих резервов.
При конфигурировании горячих резервов контроллеры автоматически пытаются использовать их для
восстановления отказавших физических дисков.Функция Patrol Read предназначена как превентивная мера, которая включает анализ системы на предмет
возможных сбоев физического диска, которые могут привести к отказу физического диска и нарушению
целостности данных. Операция Patrol Read может находить и устранять потенциальные проблемы с
физическими дисками перед доступом к хосту. Это может значительно повысить производительность
системы, так как устранение ошибок во время обычной операции ввода/вывода может не понадобиться.
Можно использовать программу управления памятью для выполнения функций Patrol Read.Параметры Patrol Read
Ниже приведен обзор параметров Patrol Read:
1 Patrol Read работает на всех дисках на контроллере, которые сконфигурированы как часть
виртуального диска, включая горячие резервы. Patrol Read не работает на неконфигурированных
физических дисках. Неконфигурированные диски -это диски, которые не являются частью
виртуального диска или находятся в состоянии готовности.2 Patrol Read настраивает количество источников контроллера, предназначенных для операций
Patrol Read, основанных на незавершенном дисковом вводе/выводе. Например, если система
занята выполнением операции ввода/вывода, тогда Patrol Read использует меньше ресурсов для
обеспечения большего приоритета ввода/вывода.3 Patrol Read работает на всех конфигурированных жестких дисках на контролере и не существует
метода для отмены дисков.
4 В итерации Patrol Read Patrol Read перезапустится с нулевого процента при Автоматическом
режиме. В ручном режиме Patrol Read не перезапускается при перезагрузке. Используйте ручной
режим, если выбрано окно времени, которое относится к работающему Patrol Read.Октябрь 28th, 2017 Evgeniy Kamenev
MegaRAID Patrol read
MegaRAID Patrol read periodically verifies all sectors(including system reserved area) of drives including hot spare connected to a controller. The goal is to protect data integrity by detecting drive failure before the failure can damage data. The corrective actions depend on the drive group configuration and the type of errors.
Patrol read starts only when the controller is idle for a defined period of time and no other background tasks are active, though it can continue to run during heavy I/O processes.Note: A patrol read is initiated only when the controller is idle for a defined time period and has no other background activities, such as Background initialization, rebuilding, consistency check etc..
Read Patrol is an adaptive process that runs as a background operation on the MegaRAID controller. It is adaptive, so that during periods of high disk access by the host applications, read patrol activity is lessened, and thus does not interfere with the applications.
During periods of lesser disk accesses by host applications, the read patrol activity can be increased. The purpose is to make sure that all stripes of a logical drive are read within a reasonable period of time, thus trying to ensure that the user’s data is available when needed. This process causes the drives to read the data by issuing read-verify commands. By using the read-verify command, the data from the drives is not transferred to the MegaRAID adapter unless an error is detected and reported by one or more drives included in the stripe. If a single drive reports an error within the stripe, the read patrol function initiates read commands to all the other stripe unit drives and the data for this single failing stripe unit is recreated by the MegaRAID adapter from the remaining data and parity stripe units.
After recreating this data, the adapter then issues a write-verify command to the drive that reported the error on the read-verify command and writes this recreated portion of the stripe to that drive. After this write completes successfully, this is now a known good stripe, and read patrol can continue with the next stripe. In the event that two or more drives report errors during the read-verify portion of the read patrol, the failing stripe will be added to the Bad Stripe Table.
Читайте также: