Я столкнулся с чрезвычайно странной проблемой, связанной с одним сервером, он случайно зависал / зависал без вывода на сервер, не реагировал на короткие клавиши и требовал холодной загрузки, при загрузке с холодной загрузкой вообще никаких ошибок на экране загрузки.
Он вообще не зависает при большой нагрузке, около 9-20% сбоя процессора, средняя нагрузка около 2-5 (12-ядерный процессор)
и 128гб ОЗУ
Мы пробовали проверять журналы, ничего не показывает, например, паники ядра или что-либо, что связано с самой проблемой.
Во всех зависаниях после холодной загрузки, когда мы проверяем журнал, мы видим, что обычный жнец OOM убивает php-процессы (пользователи достигают лимитов), но ничего слишком оскорбительного, но всегда на OOM,
Иногда, когда сервер зависает, в журнале вы видите текущее время, а иногда, например, он показывает после текущего времени сбоя несколько строк от более старой даты и зависает.
Ничто в журналах не может определить, связано ли это с программным обеспечением или находится под большой нагрузкой, просто нормальная работа, это модернизированная машина из старой, которая была стабильной в течение многих лет.
Зависания бывают случайными, могут быть после недели работы сервера, двух дней, трех недель и т. д.
Также мы пытались извлечь vmcore дамп зависания сервера, но там все равно ничего не ловит.
Это просто зависание без вывода на экран, но сервер все еще работает, но не доступен для печати, ничего не может получить доступ к ssh, а kvm, как я уже сказал, вообще не показывает вывода на экран.
Может ли это быть связано с неисправным оборудованием? Как моя подвеска связана с неисправной оперативной памятью?
Я очень потерян с этой проблемой ..
Спасибо