У меня есть кластер vcenter из 12 хостов ESX (ClusterA) и еще один кластер из 3 хостов ESX (ClusterB). Все они представляют собой смесь powerge r620 и r630.
На некоторых хостах есть аппаратные ошибки, которые можно увидеть в журналах iDRAC и на переднем ЖК-дисплее, например:
- Ошибка проверки машины ЦП
- Превышена частота исправимых ошибок памяти
Как и ожидалось, это приводит к тому, что эти хосты становятся недоступными (не отвечают) в кластере.
Исправление этих аппаратных ошибок обычно включает следующие шаги:
- выключение
- удалить сетевые карты
- включить и дождаться успешной загрузки ОС
- выключение
- поместите те же сетевые карты обратно в
- включить
Мне странно, что это исправит ошибки процессора и памяти, но это происходит постоянно.
ClusterB в порядке - проблем никогда не было. Настоящая проблема, с которой я сталкиваюсь, заключается в том, что когда я исправляю пару хостов из ClusterA, 1-3 других случайных хоста в ClusterA выходят из строя в течение дня или двух. После этих первых 1-3 сбоев, если я оставлю все в покое, хосты больше не будут падать в течение нескольких недель. Это возвращает меня к тому, с чего я начал, и я уже несколько раз наблюдал такое поведение.
Есть идеи, что проверить?