Горячая замена блока питания на сервере
Решил написать эту статью после знакомства с публикацией «HP, Dell и IBM: компоненты, отвечающие за надёжность сервера», поскольку имею другое мнение насчёт некоторых моментов. Эта статья не претендует на инновационные подходы, а просто описывает полученный опыт и, надеюсь, предотвратит банальные ошибки.
Итак, начнём с того, что попробуем выяснить, зачем бесперебойность и беспрерывность серверам? Собственно, серверам бесперебойность не обязательна, но она нужна сервисам, которые предоставляют эти сервера. Наилучшая беспрерывность обеспечивается только распределёнными системами, которые могут функционировать независимо друг от друга с автоматическим переключением между ними (для скорости) и разнесённые географически (катастрофоустойчивость). Но это выдвигает особые (не всегда реализуемые) требования к программному обеспечению. Недостатками таких решений являются повышеная стоимость, проблемы с репликацией данных, передача состояния для бесшовного переключения на резервную систему. Дополнительными плюсами является то, что при правильной реализации системы, возможно повышение быстродействия — клиенты делятся между двумя или более локациями, а при сбое перераспределяются.
Но есть задачи, настолько критичные и специфические, что требуют особой бесперебойности серверов, для них делают особые сервера, например менфреймы, с возможностью горячей замены всех компонентов, включая процессоры, память и даже материнские платы. Но такие решения стоят гораздо дороже обычных серверов и те кто их покупает — понимаю зачем это надо.
Вернёмся к серверам начального и среднего уровней. Существенно повышает беспрерывность работы серверов возможность горячей замены компонентов.
Не прерывайте работу, сохраните важные данные и продлите срок эксплуатации дорогостоящего оборудования
ИБП Powercom - MACAN SE, 3000VA/3000W, On-Line, in (208V / 220V / 230V / 240V 1xIEC-320 C20), out (8xIEC-C320 C13), Hot Swap User Replaceable Batteries, LCD, Rack, 2U, цвет Чёрный, MRT-3000SE
ИБП APC by Schneider Electric - Smart-UPS X, 2200VA/1980W, Line-Interactive, in (230V 1xIEC-320 C20), out (8xIEC-C320 C13 2xIEC-C320 C19), Hot Swap User Replaceable Batteries, LCD, Rack/Tower, 4U, RM, цвет Чёрный, SMX2200HV
ИБП Powercom - IMPERIAL, 625VA/375W, Line-Interactive, in (230V 1xIEC-320 C14), out (5xIEC-C320 C13), Hot Swap User Replaceable Batteries, Tower, цвет Чёрный, IMP-625AP
ИБП Powercom - SPIDER, 900VA/540W, Line-Interactive, in (220V / 230V / 240V Сетевой шнур (Schuko)), out (8xSchuko), Hot Swap User Replaceable Batteries, LCD, Brick, цвет Чёрный, SPD-900U LCD USB
ИБП APC by Schneider Electric - Smart-UPS SRT, 3000VA/2700W, On-Line, in (230V 1xIEC-320 C20), out (8xIEC-C320 C13 2xIEC-C320 C19), Hot Swap User Replaceable Batteries, LCD, Rack/Tower, 2U, RM, цвет Чёрный, SRT3000RMXLI
ИБП Powercom - KING PRO RM, 600VA/360W, Line-Interactive, in (220V / 230V / 240V 1xIEC-320 C14), out (5xIEC-C320 C13), Hot Swap User Replaceable Batteries, Rack, 1U, цвет Чёрный, KIN-600AP RM
ИБП APC by Schneider Electric - Back-UPS Pro, 1500VA/865W, Line-Interactive, in (230V 1xIEC-320 C14), out (10xIEC-C320 C13), Hot Swap User Replaceable Batteries, LCD, Tower, цвет Чёрный, no Power cord, BR1500GI
ИБП Powercom - Smart King Pro Plus, 1500VA/1200W, Line-Interactive, in (220V / 230V / 240V 1xIEC-320 C14), out (8xIEC-C320 C13), Hot Swap User Replaceable Batteries, LCD, Rack/Tower, 2U, цвет Чёрный, SPR-1500 LCD
ИБП APC by Schneider Electric - Smart-UPS SMT, 2200VA/1980W, Line-Interactive, in (230V 1xIEC-320 C20), out (8xIEC-C320 C13 1xIEC-C320 C19), Hot Swap User Replaceable Batteries, LCD, Tower, цвет Чёрный, SMT2200I
ИБП Powercom - Smart King Pro Plus, 1000VA/800W, Line-Interactive, in (220V / 230V / 240V 1xIEC-320 C14), out (8xIEC-C320 C13), Hot Swap User Replaceable Batteries, LCD, Rack/Tower, 2U, цвет Чёрный, SPR-1000 LCD
ИБП Cyberpower - OLS, 3000VA/2700W, On-Line, in (230V 1xIEC-320 C20), out (8xIEC-C320 C13 1xIEC-C320 C19), Hot Swap User Replaceable Batteries, LCD, Rack, 2U, цвет Чёрный, OLS3000ERT2U
ИБП APC by Schneider Electric - Smart-UPS SUA, 1000VA/640W, Line-Interactive, in (230V 1xIEC-320 C14), out (4xIEC-C320 C13), Hot Swap User Replaceable Batteries, Rack, 1U, RM, цвет Чёрный, SUA1000RMI1U
ИБП Powercom - IMPERIAL, 1500VA/900W, Line-Interactive, in (230V 1xIEC-320 C14), out (6xIEC-C320 C13), Hot Swap User Replaceable Batteries, Tower, цвет Чёрный, IMP-1500AP
ИБП Powercom - IMPERIAL, 1200VA/720W, Line-Interactive, in (230V 1xIEC-320 C14), out (6xIEC-C320 C13), Hot Swap User Replaceable Batteries, Tower, цвет Чёрный, IMP-1200AP
ИБП APC by Schneider Electric - Smart-UPS X, 3000VA/2700W, Line-Interactive, in (230V 1xIEC-320 C20), out (8xIEC-C320 C13 1xIEC-C320 C19), Hot Swap User Replaceable Batteries, LCD, Rack/Tower, 2U, RM, цвет Чёрный, SMX3000RMHV2U
ИБП Powercom - King Pro RM, 3000VA/2400W, Line-Interactive, in (220V / 230V / 240V Сетевой шнур (Schuko)), out (8xIEC-C320 C13), Hot Swap User Replaceable Batteries, LCD, Rack, 3U, цвет Чёрный, KIN-3000AP LCD
ИБП Powercom - Smart King Pro Plus, 2000VA/1600W, Line-Interactive, in (220V / 230V / 240V 1xIEC-320 C14), out (8xIEC-C320 C13 1xIEC-C320 C19), Hot Swap User Replaceable Batteries, LCD, Rack/Tower, 2U, цвет Чёрный, SPR-2000 LCD
ИБП Ippon - Smart Winner II 2000E, 2000VA/1800W, Line-Interactive, in (220V / 230V / 240V 1xIEC-320 C14), out (8xIEC-C320 C13), Hot Swap User Replaceable Batteries, LCD, Rack/Tower, 2U, цвет Чёрный, 1192980
ИБП Powercom - SPIDER, 1100VA/605W, Line-Interactive, in (220V / 230V / 240V Сетевой шнур (Schuko)), out (8xSchuko), Hot Swap User Replaceable Batteries, LCD, Brick, цвет Чёрный, SPD-1100U LCD USB
ИБП APC by Schneider Electric - Smart-UPS SMT, 2200VA/1980W, Line-Interactive, in (230V 1xIEC-320 C20), out (8xIEC-C320 C13 1xIEC-C320 C19), Hot Swap User Replaceable Batteries, LCD, Rack, 2U, RM, цвет Чёрный, SMT2200RMI2UNC
ИБП APC by Schneider Electric - Smart-UPS SRT, 3000VA/2700W, On-Line, in (230V 1xIEC-320 C20), out (8xIEC-C320 C13 2xIEC-C320 C19), Hot Swap User Replaceable Batteries, LCD, Rack/Tower, 2U, цвет Чёрный, SRT3000XLI
ИБП Powercom - IMPERIAL, 3000VA/1800W, Line-Interactive, in (230V Сетевой шнур (Schuko)), out (6xIEC-C320 C13), Hot Swap User Replaceable Batteries, Tower, цвет Чёрный, IMP-3000AP
ИБП Powercom - Smart King Pro Plus, 700VA/560W, Line-Interactive, in (220V / 230V / 240V 1xIEC-320 C14), out (5xIEC-C320 C13), Hot Swap User Replaceable Batteries, Tower, цвет Чёрный, SPT-700-II
Купите новый блок питания по самым выгодным ценам с доставкой по России
Горячая замена блоков питания
В моей практике, сгоревших БП (блоков питания) было немного, но наличие в сервере hot-swap БП, подключённых по схеме N+N во многих случаях существенно увеличивает бесперебойность работы сервера. Если в сервере больше двух БП, то зачастую реализована схема N+1, что не позволяет питать сервер от двух независимых источников или линий питания. Электропитание с подачей в стойку двух независимых линий повышает бесперебойность в самых различных ситуациях, например при обслуживании или аварии систем энергообеспечения в датацентре. Был случай, в сервере вышел из строя БП и создал короткое замыкание, что привело к срабатыванию защиты PDU и его отключению, соседние сервера с БП по схеме 1+1, подключённые также к другому PDU продолжили работу. Резервирование БП позволяет изменять подключение сервера к сети энергообеспечения, не прерывая его работу, например, оптимизировать укладку кабелей (конечно, правильно укладывать кабеля надо при установке сервера, но мы живём в не идеальном мире).
Вопреки заблуждению сертификация 80 Plus указывает на энергоеффективность блока питания, и не обязывает производителя к обеспечению какого либо уровня надёжности.
Также резервирование БП предотвращает большинство проблем связанных с кабелями питания. Плохой контакт некачественных кабелей, случайное их выдергивание персоналом при работах. Если у вас сервер с одним блоком питания, использование для него качественного и неизношенного кабеля, который плотно устанавливается в гнездо, и при нагрузке не издаёт посторонних звуков (потрескивание) более важно — невозможна замена без остановки сервера. В случае сервера с резервированными БП, плохой контакт кабеля может привести к выходу блока питания из строя.
Купите новый ИБП UPS APC - EATON - IPPON - POWERCOM по самым выгодным ценам с доставкой по России
Поднимите мощность и надежность вашего ПК и сервера
Блок питания серверный Lenovo - ThinkSystem v2, 80+ Platinum, 1100Вт, hot swap, 4P57A75974
Блок питания серверный Dell - PSU, 80+ Titanium, 1100Вт, hot swap, 450-AKKY
Блок питания серверный Dell - PSU, 350Вт, hot swap, 450-AFJN
Блок питания серверный Supermicro - PSU, 80+ Platinum, 1620Вт, hot swap, PWS-1K62P-1R
Блок питания серверный Dell - PSU, 1600Вт, hot swap, 450-ADWK-t
Блок питания серверный Supermicro - PSU, 80+ Titanium, 2200Вт, hot swap, PWS-2K21A-BR
Блок питания серверный Supermicro - PSU, 80+ Titanium, 2000Вт, hot swap, PWS-2K05A-1R
Блок питания серверный Dell - PSU, 550Вт, hot swap, 450-AEIET
Блок питания серверный Supermicro - PSU, 80+ Platinum, 1000Вт, hot swap, PWS-1K01B-1R
Блок питания серверный Supermicro - PSU, 710Вт, hot swap, PWS-711-1R
Блок питания серверный Dell - PSU, 495Вт, hot swap, 450-AEBM
Блок питания серверный Supermicro - PSU, 80+ Gold, 1200Вт, hot swap, PWS-1K21P-1R
Блок питания серверный Dell - PSU, 750Вт, hot swap, 450-AEBN
Блок питания серверный Lenovo - ThinkSystem v2, 80+ Platinum, 750Вт, hot swap, 4P57A75972
Блок питания для коммутатора Huawei - PDC1000S12-DB, 1000Вт, hot swap, 02312QJK
Блок питания серверный Supermicro - PSU, 80+ Titanium, 2600Вт, hot swap, PWS-2K60A-1R
Блок питания серверный Dell - PSU, 80+ Titanium, 1100Вт, hot swap, 450-AKLF
Блок питания серверный Lenovo - ThinkServer, 450Вт, hot swap, 67Y2625
Блок питания серверный Supermicro - PSU, 80+ Platinum, 920Вт, hot swap, PWS-920P-SQ
Блок питания серверный HP Enterprise - Flexible Slot DL360/380/560 Gen10, 80+ Platinum, 800Вт, hot swap, 865414-B21
Блок питания серверный Dell - PSU, 750Вт, hot swap, 450-AEBNT
Блок питания серверный Dell - PSU, 1400Вт, hot swap, 450-AJHA
Блок питания серверный Supermicro - PSU, 80+ Titanium, 2000Вт, hot swap, PWS-2K04A-1R
Блок питания серверный Supermicro - PSU, 80+ Titanium, 800Вт, hot swap, PWS-802A-1R
Блок питания серверный Supermicro - PSU, 80+ Titanium, 1600Вт, hot swap, PWS-1K68A-1R
Блок питания для коммутатора Cisco Catalyst 3650 AC 250Вт, PWR-C2-250WAC= В наличии
Блок питания для коммутатора Cisco - Catalyst 3650 AC, 250Вт, hot swap, PWR-C2-250WAC=
Блок питания серверный Dell - PSU, 495Вт, hot swap, 450-AEBMt
Блок питания серверный Lenovo - ThinkSystem, 80+ Platinum, 550Вт, hot swap, 7N67A00882
На сервере Supermicro SYS-6018R-MTR вышел из строя один из блоков питания. Сначала питание пару раз моргнула, через неделю ещё пару раз, через три дня весь лог забился ошибками и блок питания сдох.
Буква "R" в названии модели, как мне кажется, означает "Reserved", т.е. питание зарезервировано.
На БП загорелся оранжевый светодиод. Сервер продолжил работу на одном блоке питания.
Вытаскиваю старый блок питания.
Модель дохлого БП: PWS-406P-1R.
Сервер оказался на гарантии, заменят бесплатно. Ждали новый БП долго, больше месяца. Вот он, ещё в упаковке.
Модель нового БП: PWS-407P-1R Rev 2.0.
Устанавливаю новый блок питания.
Светодиод загорелся зелёным. Однако, IPMI увидело второй блок питания только после перезапуска.
Горячая замена дисков
Горячую замену дисков можно производить практически со всеми вариантами интерфейсов. Конечно, есть и некоторые ограничения.
IDE устройства редко переносят отключение/подключение второго устройства на шлейф — велик риск пропадания работающего устройства из системы. Главная проблема интерфейса IDE в правильной обработке операционной системой этого события. Так как интерфейс IDE не предусматривает горячей замены, в большинстве случаев необходимо вручную запустить сканирование устройств для определения нового оборудования. Важный момент — интерфейс подключается/отключается к обесточенному диску (подключение: сначала интерфейс, потом питание, отключение: сначала питание, потом интерфейс).
ОТКАЗ ОТ ОБЯЗАТЕЛЬСТВ: выполняя отключение/подключение устройств IDE Вы делаете это на свой страх и риск — никто не гарантирует сохранение работоспособности оборудования, и стабильность работы ОС.
Интерфейсы FC, SAS, SATA (AHCI) — поддерживают горячую замену дисков в полном объеме, проблемы могут быть в операционной системе. Если дисковый контроллер SATA находится в режиме совместимости IDE — то, возможно, понадобится вручную запустить сканирование шины. В режиме AHCI в большинстве случаев диск определится автоматически. Рекомендую использовать AHCI, если ваша ОС это позволяет, т.к. этот режим также повышает производительнось диска; TRIM поддерживается только в этом режиме работы контроллера.
При отключении дисков для продления срока их службы рекомендую предварительно отключать их программным методом и извлекать после остановки шпинделя, т.е. через примерно 30 секунд после выключения для дисков 7200RPM. Если диск невозможно отключить программно и он установлен в hot-swap корзинке, рекомендую вытащить диск на минимальное расстояние, при котором диск будет отключен, подождать остановки шпинделя и извлечь окончательно. В большинстве систем — это расстояние полностью отведённой ручки корзинки. Конечно, эти действия не несут практического смысла, если диск вышел из строя, но, возможно, он просто «завис» и вам не поменяют его по гарантии и придется использовать в некритичном оборудовании.
Так же важно понимать, что диск находится в составе RAID или как отдельное блочное устройство. При использовании отдельного диска необходимо предварительно его отмонтировать для избежания сбоев в работе ОС и программного обеспечения. Даже если диск не используется в текущий момент, после извлечения примонтированого диска зачастую наблюдаются лаги всей ОС. Конечно же, диск, на котором установлена ОС, извлечь без «зависания» не получится.
Большинство серверов позволяет подсветить индикатором диск по команде с сервера, по возможности пользуйтесь этой функцией, для минимизации ошибочных извлечений дисков. Например на серверах SuperMicro номер корзинки указан на самой корзинке, и может не совпадать с номером слота на бэкплейне. Такая-же проблема есть у многих производителей.
Так же перед отключением желательно получить информацию о диске (модель, объем, серийный номер) для сопоставления сразу после извлечения диска. Во многих случаях при ошибочном извлечении другого диска это позволит устранить ошибку сразу, а иногда даже предотвратить сбой в работе или потерю данных.
В случае использования RAID-массивов, рекомендую отключать диски программно (помечать как сбойные), перед извлечением это устранит снижение производительности дисковой системы сразу после отключения диска.
Проблем с SSD дисками при частом горячем подключении/извлечении не заметил, хотя использовал несколько именно в таком режиме.
На этом первая часть заканчивается, в следующей частях про RAID массивы, память для серверов, системы удалённого управления и про важность мониторинга.
Когда я впервые увидел такую надпись при опросе версий прошивок HP DL380, то был несколько обескуражен. Эм, ну ладно, если очень нужно – скачай и поставь. Но что за софт может быть в банальном блоке питания? Оказалось, что для диагностики местной системы жизнеобеспечения и обработки отказов по питанию. Там натуральный кластер из блоков питания, со своим арбитром и логикой. Под катом рассказ об устройстве такого "кластера" и о том, почему 2 x 1400 = 2300W.
Два блока питания – в два раза выше надежность? Не всегда, потому что зависит от настроек системы электропитания. Вот о ней подробнее и поговорим. В качестве предметов рассказа я выбрал оборудование среднего серверного класса, вроде такого:
То есть, не блейды и не мейнфреймы – у них все иначе устроено. Обратите внимание, форм-фактор сервера не имеет значения для наличия или отсутствия дополнительных блоков питания.
Начнем с ответа на вопрос "зачем сколько БП, если можно просто хранить небольшой запас запчастей". Системы с резервированием в сервере всегда полезны, даже если не рассматривать отказоустойчивость. Например, они повышают удобство обслуживания и позволяют нам не ночевать в серверной при замене дисков или тех же блоков питания.
Например, второй блок питания поможет, если:
Выйдет из строя ИБП;
Дорожные рабочие найдут месторождение электричества;
Возникнет необходимость переноса сервера в другую стойку;
Два блока питания дают больше гибкости при проектировании серверной комнаты. Например, рабочая схема подключения у одного клиента: в серверной две фазы, подключены к разным блокам питания серверов. Одна фаза подключена к UPS, а вторая работает только через стабилизаторы. Но эта линия идет от генератора с автозапуском. При отключении электричества дизель стартует и серверы продолжают работать, даже если UPS разрядятся. Это всего лишь один из вариантов, подобранный с учетом пожеланий клиента и возможностей бюджета.
Итого, несколько БП нужны для удобства администратора, повышения надежности системы и обеспечения большей мощности.
Простейший вариант систем с двумя блоками питания выглядит как запитывание отдельных комплектующих компьютера от разных блоков, при этом один из них управляющий и питает материнскую плату. Подобные решения практикуют геймеры и майнеры, потому что для установки трех и более видеокарт одного источника питания не хватит. Для подключения используют такие адаптеры:
При нажатии на Power замыкаются зеленый сигнальный провод с "землей", давая команду на запуск обоим блокам питания.
Помню, когда-то давно был у меня компьютер уровня Pentium III с набором SCSI дисков. Штатного блока питания перестало хватать, и я подключил старый АТ-блок отдельно для жестких дисков. Запуск чудо-машины происходил так: нажимаем на кнопку дополнительного питания и ждем жужжания дисков, затем включаем основной БП и начинается загрузка.
Даже в эпоху всепроникающего Китая для "самоделкиных" существует множество схем подключения двух блоков питания своими руками, чтобы получилась похожая конфигурация:
Но вернемся к промышленным серверным решениям.
Устройство питания по своей логике довольно простое. Блоки подключаются к специальной корзине Power Distribution Backplane, где также присутствует микроконтроллер Power Distribution Unit (не путайте с распределителем питания для серверной стойки). Контроллер отвечает за схему использования доступных БП: одновременно или в режиме primary-backup.
Столь продвинутую подсистему питания можно настраивать под конкретные потребности. При использования сервера с двумя блоками питания доступно несколько режимов работы:
Резервирование, при котором один блок питания нагружен постоянно, а второй готов подхватить нагрузку в случае сбоя;
Очень напоминает RAID – его отказоустойчивый уровень 1 и производительный 0.
Большинство производителей позволяют администратору выбрать необходимый режим. Например, в таком сервере HP настройка через BIOS выглядит следующим образом:
Изображение немного устарело, так как в новых системах используется настройка через iLO, но для понимания сути ее достаточно.
Посмотрим на выдаваемую мощность пары блоков питания HP DL360 при разных режимах настройки и небольшой нагрузке. Для этого используем консольную утилиту hpasmcli.
Не обманул производитель, блоки питания выдают примерно одинаковую мощность.
И правда, при использовании режима распределения нагрузки блоки нагружены примерно одинаково. Но при включении отказоустойчивости используется только один блок питания, а второй переводится в Standby и расходует минимум энергии.
Своеобразный "спящий режим" нужен для того, чтобы избежать холодного старта при подключении резервного БП, сэкономить время и минимизировать риски выхода блока питания из строя в процессе его активизации. Как и в случае с бытовыми лампочками, при любом холодном включении образуются пиковые нагрузки на элементную базу электроцепи, что может привести к ее порче.
Настройка режимов работы у каждого производителя выполняется по-своему. Например, у Lenovo (IBM) в системах с двумя блоками питания настройка через GUI выглядит следующим образом:
На выбор предлагаются три режима работы:
Отказоустойчивость без снижения энергопотребления – вернемся к нему позже;
Отказоустойчивость с понижением мощности;
Generic-серверы, вроде Intel и Supermicro, не всегда хорошо документированы и открытой информации о настройках режимов работы БП не оказалось. Пришлось обратиться к нашим инженерам и форумам. Оказалось, что подобные системы обычно работают они в режиме балансировки нагрузки.
Если вы плотно работали с подобными платформами и владеете другой информацией – поделитесь в комментариях, пожалуйста.
Еще интереснее обстоят дела с системами из трех и более БП.
Как и в аналогии с RAID, большее число узлов открывает более изощренные схемы использования. Например, у сервера Supermicro с тремя блоками штатно используется режим работы 2+1, то есть работают одновременно два, а третий в резерве.
В случае с четырьмя БП в Lenovo можно настроить использование блоков питания более гибко. Интерфейс даже считает показатели мощности самостоятельно:
С точки зрения баланса производительности и надежности, подобные конфигурации из 4 БП оправданы только при использовании "прожорливых" комплектующих. В остальных случаях запас по мощности будет избыточным, а удобство и запас надежности обеспечивают 2 блока питания с разными подводами электричества.
На мой взгляд, в таких платформах интереснее вместо третьего и четвертого БП поставить резервные батареи (примеры для Supermicro и HP). Они подстрахуют от проблем с UPS и минут на 5 повысят время работы без электричества в сети. Кроме того, с подобными модулями удобнее заниматься обслуживанием железа: выдернул кабель – и спокойно перенес сервер в другой шкаф. Время работы сервера от встроенной батареи составляет около пяти минут.
Опыт инженеров Сервер Молл показывает, что блоки питания на втором месте по выходу из строя, после жестких дисков. По крайней мере, в ходе восстановления серверов эти компоненты часто меняются из-за применения в их конструкции электролитических конденсаторов.
Если к сбоям дисковой подсистемы мы привыкли и держим запасной диск наготове, то замена для системы питания встречается на полках ЗИП реже. Ситуацию в какой-то степени спасает гарантия и возможность получить замену отказавшего БП через пару дней с курьером, но Закон Мерфи со счетов сбрасывать не стоит. В моей практике был случай, когда во время ожидания замены отказавшего БП вышел из строя оставшийся. Хорошо, что на сервере ничего жизненно-важного не было.
Если оставить в стороне надежность, то остается вопрос с мощностью. Как правило, лучше взять сразу два блока питания, каждый с достаточным запасом выходной мощности. Но если бюджет таких вольностей не позволяет, то придется взвешивать потребности более детально и учитывать проседания мощности источников питания. Обратимся к руководству от HP, в котором представлен график КПД системы питания в разных конфигурациях:
В случае низкой нагрузки машины КПД одного блока питания выше, но картина меняется, если у нас высоконагруженный сервер.
Что же будет, если один из блоков питания выйдет из строя, а мощности оставшегося не хватит?
У многих вендоров предусмотрен механизм снижения энергопотребления на случай сбоя – PowerSafe Guard у Fujitsu, Throttling у Lenovo. Использование подобных механизмов не всегда спасает ситуацию, да и существенное падение производительности порой хуже простоя.
Есть еще один нюанс: возрастает нагрузка на второй блок питания, что повышает вероятность его выхода из строя. Лучше исходить из того, что один блок питания из пары должен обеспечивать сервер целиком, хотя бы при штатных нагрузках. Разница в стоимости блоков питания разной мощности не так уж велика, поэтому стоит выбирать более производительные модели. Например, вот цены на варианты от Supermicro:
Блок питания PWS-406P-1R на 400 Ватт стоит в среднем 12 000 ₽;
Цены взяты с Яндекс маркета, так что в реальности они могут быть даже ниже. Экономия 4 000 ₽ в ущерб отказоустойчивости выглядит так себе даже для небольшого сервера.
Современный блок питания содержит набор диагностических механизмов для контроля внутренней системы охлаждения, напряжения, силы тока и массы внутренних состояний.
Помимо автоматического отключения при перегреве, полезно иметь возможность подключить к централизованному мониторингу показатели работы подсистемы питания. Например, с их помощью можно прогнозировать выход из строя определенного БП или выявить нестабильный подвод электричества. Все это обеспечивают микроконтроллеры, внутреннюю логику которых производитель периодически совершенствует в новых обновлениях.
При всех описанных преимуществах, у решений с несколькими блоками питания есть и отрицательные стороны:
Необходимость покупать более дорогие проприетарные блоки питания. Как правило, они должны быть одинаковыми, что может вызвать проблемы с заменой для очень старых серверов;
Узким местом становится управляющий блоками питания контроллер и плата, к которой они подключаются (Power Distribution Backplane);
При малой нагрузке больший расход электроэнергии, как следствие специфического алгоритма использования;
Если у вас есть собственный негативный опыт работы с конфигурациями из нескольких блоков питания – было бы интересно почитать в комментариях.
В завершение приведу несколько полезных ссылок на калькуляторы мощности популярных вендоров:
Если вам тоже лень оценивать мощность при выборе очередного нового сервера, то эти инструменты помогут при расчете как мощности блоков питания, так и энергопотребления всего ЦОД.
Горячая замена блоков питания
В моей практике, сгоревших БП (блоков питания) было немного, но наличие в сервере hot-swap БП, подключённых по схеме N+N во многих случаях существенно увеличивает бесперебойность работы сервера. Если в сервере больше двух БП, то зачастую реализована схема N+1, что не позволяет питать сервер от двух независимых источников или линий питания. Электропитание с подачей в стойку двух независимых линий повышает бесперебойность в самых различных ситуациях, например при обслуживании или аварии систем энергообеспечения в датацентре. Был случай, в сервере вышел из строя БП и создал короткое замыкание, что привело к срабатыванию защиты PDU и его отключению, соседние сервера с БП по схеме 1+1, подключённые также к другому PDU продолжили работу. Резервирование БП позволяет изменять подключение сервера к сети энергообеспечения, не прерывая его работу, например, оптимизировать укладку кабелей (конечно, правильно укладывать кабеля надо при установке сервера, но мы живём в не идеальном мире).
Вопреки заблуждению сертификация 80 Plus указывает на энергоеффективность блока питания, и не обязывает производителя к обеспечению какого либо уровня надёжности.
Также резервирование БП предотвращает большинство проблем связанных с кабелями питания. Плохой контакт некачественных кабелей, случайное их выдергивание персоналом при работах. Если у вас сервер с одним блоком питания, использование для него качественного и неизношенного кабеля, который плотно устанавливается в гнездо, и при нагрузке не издаёт посторонних звуков (потрескивание) более важно — невозможна замена без остановки сервера. В случае сервера с резервированными БП, плохой контакт кабеля может привести к выходу блока питания из строя.
Читайте также: