Рейтинг:0

Несколько неисправимых ошибок ECC на нескольких модулях DIMM

флаг cn

У меня есть система Supermicro X8DT6, в которой внезапно появилось большое количество неисправимых ошибок ECC. Всего несколько дней назад система работала без ошибок, а теперь она сталкивается с неисправимыми ошибками ECC (и связанными с ними самопроизвольными перезагрузками) много раз в день. Ошибки не изолированы от одного модуля DIMM.

Сведения о системе: один ЦП X5650, 48 ГБ оперативной памяти DDR3 с частотой 1333 МГц в 6 модулях DIMM. Запуск Debian Linux.

Насколько я могу судить, НИКАКИХ исправимых ошибок ECC обнаружено не было (rasdaemon ничего не показывает, а журнал событий ipmi показывает только неисправимые).

Проблема впервые возникла несколько дней назад, и из этого журнала видно, что изначально она была ограничена одним модулем DIMM:

  3ф | 13.09.2021 | 18:13:02 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  40 | 14.09.2021 | 03:30:49 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  41 | 14.09.2021 | 04:10:28 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  42 | 14.09.2021 | 04:11:42 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  43 | 14.09.2021 | 04:19:31 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  44 | 14.09.2021 | 04:27:06 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  45 | 14.09.2021 | 04:28:39 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  46 | 14.09.2021 | 04:32:42 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  47 | 14.09.2021 | 04:35:48 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  48 | 14.09.2021 | 04:39:51 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  49 | 14.09.2021 | 04:41:29 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  4а | 14.09.2021 | 04:48:16 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  4б | 14.09.2021 | 04:53:43 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  4с | 14.09.2021 | 04:54:52 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  4д | 14.09.2021 | 05:09:41 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  4е | 14.09.2021 | 05:12:04 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  4ф | 14.09.2021 | 05:20:51 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  50 | 14.09.2021 | 05:23:42 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  51 | 14.09.2021 | 05:34:12 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  52 | 14.09.2021 | 05:39:44 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  53 | 14.09.2021 | 05:41:24 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  54 | 14.09.2021 | 05:47:19 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  55 | 14.09.2021 | 05:55:46 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  56 | 14.09.2021 | 12:05:32 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  57 | 14.09.2021 | 16:18:36 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  58 | 14.09.2021 | 17:31:57 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  59 | 14.09.2021 | 17:59:21 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  5а | 14.09.2021 | 18:09:04 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  5б | 14.09.2021 | 18:10:59 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  5с | 14.09.2021 | 18:41:11 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  5д | 14.09.2021 | 18:43:32 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  5е | 14.09.2021 | 18:49:21 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  5ф | 14.09.2021 | 21:39:45 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  60 | 14.09.2021 | 21:43:26 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  61 | 14.09.2021 | 21:47:11 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
  62 | 14.09.2021 | 22:35:41 | Физическая безопасность #0xaa | Общее вторжение в шасси () | Утверждено

Затем я удалил DIMM 1B и снова включил систему, установив только 5 модулей DIMM. Я считаю, что это правильная конфигурация — есть три канала памяти, и каждый может работать с 1 или 2 модулями DIMM.

Поначалу казалось, что это решает проблему, но, как вы можете видеть, это еще больше запутало:

  63 | 15.09.2021 | 12:21:05 | Память | Неисправимый ECC (@DIMM1A(CPU1)) | Утверждено
  64 | 15.09.2021 | 14:15:46 | Память | Неисправимый ECC (@DIMM1A(CPU1)) | Утверждено
  65 | 15.09.2021 | 14:22:07 | Память | Неисправимый ECC (@DIMM2A(CPU1)) | Утверждено
  66 | 15.09.2021 | 14:31:22 | Память | Неисправимый ECC (@DIMM2B(CPU1)) | Утверждено
  67 | 16.09.2021 | 05:02:38 | Память | Неисправимый ECC (@DIMM2A(CPU1)) | Утверждено
  68 | 16.09.2021 | 10:58:01 | Память | Неисправимый ECC (@DIMM1A(CPU1)) | Утверждено
  69 | 16.09.2021 | 11:17:37 | Память | Неисправимый ECC (@DIMM2A(CPU1)) | Утверждено

Все другие ответы или статьи, которые я могу найти, посвящены нечастым ошибкам или сценариям, когда один модуль DIMM или слот явно не работает. Кто-нибудь знает, что может быть причиной такой широко распространенной серии отказов в ранее работающей машине? Я намерен все пересадить, но, учитывая многочисленные точки отказа, я не возлагаю на это больших надежд.

Zac67 avatar
флаг ru
Возможными другими источниками проблемы являются ЦП, блок питания, материнская плата. Проверьте каждый из них в другой системе, чтобы убедиться в правильности их функционирования.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.