Рейтинг:0

Случайное зависание сервера и загрузка только с холодной загрузкой

флаг cn

Я столкнулся с чрезвычайно странной проблемой, связанной с одним сервером, он случайно зависал / зависал без вывода на сервер, не реагировал на короткие клавиши и требовал холодной загрузки, при загрузке с холодной загрузкой вообще никаких ошибок на экране загрузки.

Он вообще не зависает при большой нагрузке, около 9-20% сбоя процессора, средняя нагрузка около 2-5 (12-ядерный процессор) и 128гб ОЗУ

Мы пробовали проверять журналы, ничего не показывает, например, паники ядра или что-либо, что связано с самой проблемой.

Во всех зависаниях после холодной загрузки, когда мы проверяем журнал, мы видим, что обычный жнец OOM убивает php-процессы (пользователи достигают лимитов), но ничего слишком оскорбительного, но всегда на OOM, Иногда, когда сервер зависает, в журнале вы видите текущее время, а иногда, например, он показывает после текущего времени сбоя несколько строк от более старой даты и зависает.

Ничто в журналах не может определить, связано ли это с программным обеспечением или находится под большой нагрузкой, просто нормальная работа, это модернизированная машина из старой, которая была стабильной в течение многих лет. Зависания бывают случайными, могут быть после недели работы сервера, двух дней, трех недель и т. д.

Также мы пытались извлечь vmcore дамп зависания сервера, но там все равно ничего не ловит.

Это просто зависание без вывода на экран, но сервер все еще работает, но не доступен для печати, ничего не может получить доступ к ssh, а kvm, как я уже сказал, вообще не показывает вывода на экран.

Может ли это быть связано с неисправным оборудованием? Как моя подвеска связана с неисправной оперативной памятью?

Я очень потерян с этой проблемой .. Спасибо

Рейтинг:0
флаг cn

Мы просто мигрировали на другой сервер, но после многого поиска и попытки отладки много, Похоже, аппаратная проблема связана с материнской платой, так как я проверял на некоторых форумах материнские платы от Asrock Rack и процессоров ryzen. Мне удалось найти несколько случаев такой же проблемы, даже если Windows 10 или сервер Windows получили синий экран смерти. так как поддержка ОС предложила в этом случае не менять марку материнской платы, так как может быть рискованно получить отказ в загрузке, и мигрировать на новый сервер, как это сделали мы. после того, как мы мигрировали на новый сервер, все проблемы были решены. поэтому я думаю, что это связано с аппаратной проблемой, а не с программным обеспечением.

Рейтинг:0
флаг nz
  1. Убедитесь, что температуры хорошие, ЦП/ОЗУ/ЧИПСЕТ/ДИСКИ, я предполагаю, что вы пользователь Linux из-за OOM, установите lm-сенсоры, и проверьте температуру с помощью датчики команда.
  2. Это ваша оперативная память, запустите memtest86, имейте в виду, что полный тест на 128 ГБ может занять неделю.
флаг cn
Да, на основе Linux, вы думаете, что это связано с температурой? Или оборудование? Я думал получить данные для переноса данных с нового сервера, а затем перенести их на старые стойки, поэтому исключите возможность аппаратного обеспечения.
Egidijus avatar
флаг nz
Если в софте явных признаков нет, то с большой вероятностью дело в железе. Температура аппаратно (программное обеспечение не может чувствовать теплое прикосновение).
флаг cn
Я действительно сомневаюсь, что это связано с температурой, так как сервер не находится под большой нагрузкой, когда он зависает, я не думаю, что процессор может достигать 95 градусов при загрузке процессора 9% или 20%, поскольку он достигает этих значений ежедневно, и все же ничего

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.