Рейтинг:0

Аппаратные ошибки процессора или оперативной памяти, что делать?

флаг cn

У меня есть сервер, который время от времени сообщает ОС об аппаратных ошибках, но в остальном работает без каких-либо заметных проблем.

Сегодня я нашел это, проходя мимо монитора, прикрепленного к нему.введите описание изображения здесь

Кто-нибудь может мне сказать, что это значит? Это то, о чем мне нужно беспокоиться? Есть ли файлы журналов, в которые я могу углубиться? За несколько недель до этого я заметил, что одна из планок оперативной памяти не была обнаружена системой, она сообщала только о 112 ГБ вместо 128 ГБ. Хотя сейчас показывает правильно.

Для получения дополнительной информации этот сервер имеет следующие основные компоненты:

  • Супермикро MBD-H11DSi-NT-B
  • 2x AMD Epyc 7301
  • 128 ГБ Kingston Server Premier KSM26RD8/16HAI DDR4-2666 regECC
  • Unraid как ОС
Рейтинг:5
флаг cn

Кто-нибудь может мне сказать, что это значит?

У вас есть проблема с оборудованием, которую необходимо решить, вероятно, с памятью. печатание MC15_STATUS[Over|CE в Google, второе попадание из очистить форумы что может мне тоже помочь.

Это то, о чем мне нужно беспокоиться?

Абсолютно! Игнорируйте аппаратные ошибки на свой (данных) риск. Я бы снял эту систему с производства, не тратя время на выяснение в Интернете, была ли это проблема, о которой мне нужно было беспокоиться.

Используйте что-то вроде memtest86, чтобы проверить и диагностировать местонахождение проблемы.

флаг cn
Ну нет другого "производственного" сервера. Так что да. Нужно подождать до Рождества, пока я не смогу выключить его и запустить тесты.
Рейтинг:3
флаг za

В вашем случае я бы прочитал журнал событий IPMI BMC, например. с ipmiutil sel. Он должен показывать подробную информацию об ошибках, в моем случае он показал даже конкретное расположение слота памяти, в котором находился неисправный модуль.

флаг cn
У меня есть только IPMITool, который для меня не отображает никаких событий, связанных с памятью.
Nikita Kipriyanov avatar
флаг za
Существует IPMITool с веб-сайта Supermicro, который очень слабо представлен. Жаль, что он даже не знает, как подключиться к *локальному* IPMI BMC через SMBus.Существует также [пакет ipmitool`(https://github.com/ipmitool/ipmitool), который неправильно интерпретирует сообщения журнала событий (декодирует их не полностью или даже декодирует неправильно). Наиболее точную информацию о PSU и других событиях работоспособности оборудования мне удалось получить только с [`ipmiutil`](http://ipmiutil.sourceforge.net/) (но, надо признать, ipmitool проще в использовании).

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.