У меня есть система Supermicro X8DT6, в которой внезапно появилось большое количество неисправимых ошибок ECC. Всего несколько дней назад система работала без ошибок, а теперь она сталкивается с неисправимыми ошибками ECC (и связанными с ними самопроизвольными перезагрузками) много раз в день. Ошибки не изолированы от одного модуля DIMM.
Сведения о системе: один ЦП X5650, 48 ГБ оперативной памяти DDR3 с частотой 1333 МГц в 6 модулях DIMM. Запуск Debian Linux.
Насколько я могу судить, НИКАКИХ исправимых ошибок ECC обнаружено не было (rasdaemon ничего не показывает, а журнал событий ipmi показывает только неисправимые).
Проблема впервые возникла несколько дней назад, и из этого журнала видно, что изначально она была ограничена одним модулем DIMM:
3ф | 13.09.2021 | 18:13:02 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
40 | 14.09.2021 | 03:30:49 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
41 | 14.09.2021 | 04:10:28 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
42 | 14.09.2021 | 04:11:42 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
43 | 14.09.2021 | 04:19:31 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
44 | 14.09.2021 | 04:27:06 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
45 | 14.09.2021 | 04:28:39 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
46 | 14.09.2021 | 04:32:42 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
47 | 14.09.2021 | 04:35:48 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
48 | 14.09.2021 | 04:39:51 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
49 | 14.09.2021 | 04:41:29 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
4а | 14.09.2021 | 04:48:16 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
4б | 14.09.2021 | 04:53:43 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
4с | 14.09.2021 | 04:54:52 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
4д | 14.09.2021 | 05:09:41 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
4е | 14.09.2021 | 05:12:04 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
4ф | 14.09.2021 | 05:20:51 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
50 | 14.09.2021 | 05:23:42 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
51 | 14.09.2021 | 05:34:12 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
52 | 14.09.2021 | 05:39:44 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
53 | 14.09.2021 | 05:41:24 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
54 | 14.09.2021 | 05:47:19 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
55 | 14.09.2021 | 05:55:46 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
56 | 14.09.2021 | 12:05:32 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
57 | 14.09.2021 | 16:18:36 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
58 | 14.09.2021 | 17:31:57 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
59 | 14.09.2021 | 17:59:21 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
5а | 14.09.2021 | 18:09:04 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
5б | 14.09.2021 | 18:10:59 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
5с | 14.09.2021 | 18:41:11 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
5д | 14.09.2021 | 18:43:32 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
5е | 14.09.2021 | 18:49:21 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
5ф | 14.09.2021 | 21:39:45 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
60 | 14.09.2021 | 21:43:26 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
61 | 14.09.2021 | 21:47:11 | Память | Неисправимый ECC (@DIMM1B(CPU1)) | Утверждено
62 | 14.09.2021 | 22:35:41 | Физическая безопасность #0xaa | Общее вторжение в шасси () | Утверждено
Затем я удалил DIMM 1B и снова включил систему, установив только 5 модулей DIMM. Я считаю, что это правильная конфигурация — есть три канала памяти, и каждый может работать с 1 или 2 модулями DIMM.
Поначалу казалось, что это решает проблему, но, как вы можете видеть, это еще больше запутало:
63 | 15.09.2021 | 12:21:05 | Память | Неисправимый ECC (@DIMM1A(CPU1)) | Утверждено
64 | 15.09.2021 | 14:15:46 | Память | Неисправимый ECC (@DIMM1A(CPU1)) | Утверждено
65 | 15.09.2021 | 14:22:07 | Память | Неисправимый ECC (@DIMM2A(CPU1)) | Утверждено
66 | 15.09.2021 | 14:31:22 | Память | Неисправимый ECC (@DIMM2B(CPU1)) | Утверждено
67 | 16.09.2021 | 05:02:38 | Память | Неисправимый ECC (@DIMM2A(CPU1)) | Утверждено
68 | 16.09.2021 | 10:58:01 | Память | Неисправимый ECC (@DIMM1A(CPU1)) | Утверждено
69 | 16.09.2021 | 11:17:37 | Память | Неисправимый ECC (@DIMM2A(CPU1)) | Утверждено
Все другие ответы или статьи, которые я могу найти, посвящены нечастым ошибкам или сценариям, когда один модуль DIMM или слот явно не работает. Кто-нибудь знает, что может быть причиной такой широко распространенной серии отказов в ранее работающей машине? Я намерен все пересадить, но, учитывая многочисленные точки отказа, я не возлагаю на это больших надежд.