Рейтинг:0

Сбой Ubuntu 20.04: обнаружена ошибка ECC или яд L2

флаг kz

Ubuntu 20.04 случайно падает в разное время. Невозможно указать на конкретное событие.

uname -а 
Linux Ubuntu 5.11.0-051100-общий #202102142330 
SMP Вс, 14 февраля, 23:33:21 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

Вылетает со следующим сигналом:

 ядро: [19849.215258] [Аппаратная ошибка]: неисправленная ошибка, перезапускаемая программным обеспечением.

 ядро: [19849.215259] [Аппаратная ошибка]: ЦП: 22 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135

 ядро: [19849.215263] [аппаратная ошибка]: адрес ошибки: 0x000000076bed1c00

 ядро: [19849.215264] [аппаратная ошибка]: IPID: 0x001000b000000000

 ядро: [19849.215266] [Аппаратная ошибка]: Загрузить модуль хранилища, доб. Код ошибки: 1. В кэше данных, прочитанном при загрузке, обнаружена ошибка ECC или отравление L2.

 ядро: [19849.215269] [аппаратная ошибка]: уровень кэша: L1, tx: DATA, mem-tx: DRD

Информация об оборудовании:

### ЦПУ
  Архитектура: x86_64
  Режим работы процессора: 32-битный, 64-битный
  Порядок байтов: Little Endian
  Размер адреса: 48 бит физический, 48 бит виртуальный
  ЦП: 24
  Список процессоров в сети: 0-23
  Количество потоков на ядро: 2
  Количество ядер на сокет: 12
  Розетка(и): 1
  NUMA-узлы: 1
  Идентификатор поставщика: AuthenticAMD
  Семейство процессоров: 25
  Модель: 33
  Название модели: 12-ядерный процессор AMD Ryzen 9 5900X
  Шаг: 0
  Повышение частоты: включено
  ЦП МГц: 2200.000
  Максимальная частота процессора, МГц: 6442,4800
  Минимальная частота процессора МГц: 2200.0000

### Информация о базовой плате
  Производитель: ASRock
  Название продукта: X570 Тайчи

### Память:
G Skill Trident Z Neo DDR4 — 3600 МГц, 32 ГБ (2 x 16 ГБ)

Каковы предлагаемые способы выяснения первопричины? Как мне включить больше журналов или, если журнал уже существует, где я могу их найти и т. Д. Буду признателен за любые рекомендации. Спасибо!

Рейтинг:2
флаг in

это не технически ответ, но...

В кэше данных, прочитанном при загрузке, обнаружена ошибка ECC или отравление L2. сообщение указывает на проблему с памятью, либо с самой оперативной памятью, либо с кешем ЦП. Ни то, ни другое не очень хорошо, но вы можете протестировать системную оперативную память с помощью следующего процесса:

  1. Перезагрузите систему
  2. Нажмите и удерживайте кнопку Сдвиг клавиша для вызова меню GRUB
  3. Выберите «Ubuntu, memtest86+» и нажмите Войти
    Тест памяти будет выполняться до истечения времени или до тех пор, пока вы не нажмете Esc ключ. Дайте машине завершить хотя бы одно испытание, прежде чем сбежать.

На основе отчеты вокруг в Интернете эта проблема наблюдается только с процессорами AMD Ryzen более высокого класса. Чтение через эта длинная нить на сайте сообщества AMD обнаружил этот интересный момент:

Я заменил память, и компьютер уже несколько дней работает стабильно. Надеюсь, это поможет вам, как помогло мне. Предыдущей памятью была память Gskill 3600 МГц ... новая память - память 3200 от Corsair.

В вашем вопросе не указано, какой тип памяти вы установили, но, если это высокочастотный набор модулей, может быть что-то между ОЗУ и ЦП, что вызывает нестабильность. Если тест памяти не пройден, и у вас есть совместимая ОЗУ 3200 МГц (даже если это всего один модуль DIMM), подумайте о том, чтобы заменить его и снова выполнить тест памяти.

dina avatar
флаг kz
Большое спасибо за ответ. Моя оперативная память — G Skill Trident Z Neo DDR4 — 3600 МГц, 32 ГБ (2x16). Я запустил memtest86, это заняло около четырех с половиной часов, и я ПРОШЕЛ тест.
dina avatar
флаг kz
К сожалению, у меня нет свободной памяти, это совершенно новая сборка. Я надеюсь, что для этого появятся какие-то решения на уровне BIOS или ОС, а не на оборудовании.
heynnema avatar
флаг ru
@dnafication С помощью memtest вы провели только 1 тест или все 4/4? Процессоры AMD очень привередливы к оперативной памяти. Есть ли ваша оперативная память в списке совместимости? Зайди на сайт поддержки своей материнской платы и посмотри. Кроме того, ваш процессор или оперативная память разогнаны?
heynnema avatar
флаг ru
@dnafication Также покажите мне `sudo dmidecode -s bios-version`. Вы включили ECC для своей оперативной памяти ... может быть, в BIOS?
dina avatar
флаг kz
спасибо @heynnema, я провел все тесты (я думаю, он показал около 10 тестов, и они работали более 4 часов). ЦП или ОЗУ должны быть установлены как есть. Я не помню, чтобы я делал какие-то изменения или разгоны. Версия BIOS: «P4.30». Я посмотрю на ECC во время загрузки.
dina avatar
флаг kz
@heynnema, я также запустил memtester: `sudo memtester 4000M 1`. об ошибке не сообщается.
dina avatar
флаг kz
Версия биоса вроде последняя. Это материнская плата: https://www.asrock.com/mb/AMD/X570%20Taichi/#Specification
heynnema avatar
флаг ru
@dnafication Перейдите на страницу https://www.asrock.com/MB/AMD/X570%20Taichi/index.asp#Download и просмотрите список поддержки ЦП, чтобы определить имя вашего ЦП, затем просмотрите соответствующий список QVL памяти, чтобы определить если ваша память поддерживается. Получите модель ваших модулей DIMM с помощью `sudo lshw -C memory`.
dina avatar
флаг kz
Давайте [продолжим это обсуждение в чате](https://chat.stackexchange.com/rooms/126576/discussion-between-dnafication-and-heynnema).
флаг cn
У меня есть ECC RAM и Ryzen 5900X. С помощью edac-util и dmesg я проверил, что ECC работает. Я ни разу не видел ошибок в течение нескольких месяцев. Однако раз в несколько дней моя машина зависает и перезагружается. `/var/log/kern.log` показывает тот же MCE (отравление кеша L2). Я запущу `memtest86+`, но сомневаюсь, что он найдет какие-либо проблемы. Я видел, как другие жалуются на это с 5900X, поэтому я подозреваю микрокод процессора. Пытаюсь собрать больше данных.
Рейтинг:1
флаг ru

БИОС

ASRock X570 Тайчи

Текущая версия BIOS P4.30.

ПАМЯТЬ

G Skill Trident Z Neo DDR4 — 3600 МГц, 32 ГБ (2 x 16 ГБ), продукт: F4-3600C16-16GTZNC

12-ядерный процессор AMD Ryzen 9 5900X

Процессоры Ryzen очень привередливы к оперативной памяти.

Эти модули DIMM не отображаются в списке поддерживаемой памяти, как видно здесь.

мемтест прошел все тесты.

Когда мы смотрим на sudo lshw -C память мы видим, что модули DIMM май устанавливаться в неправильные слоты. При использовании двух модулей DIMM одинакового размера их следует устанавливать в слоты A2 и B2. Вот изображение макета платы и слотов памяти... взято из Руководства пользователя на здесь...так что просто проверьте это...

введите описание изображения здесь

dina avatar
флаг kz
Я попробую это сегодня большое спасибо! :D
dina avatar
флаг kz
Я переместил оперативную память с A1 --> A2 и B1 --> B2. Похоже, он все еще падает через некоторое время. :( Можете ли вы предложить что-нибудь еще? Есть ли какие-либо тесты, которые я могу запустить, какая-либо диагностика, чтобы убедиться, что это определенно аппаратная ошибка? Я загрузил систему в Windows и продолжал работать достаточно долго без каких-либо сбоев.
heynnema avatar
флаг ru
@dnafication Я только что заметил, что вы используете ядро ​​​​5.11.0-051100-generic от 20.04. Я не верю, что это стандартное ядро ​​для 20.04. Вы устанавливали это вручную или это было добавлено в обновление программного обеспечения? Отредактируйте свой вопрос и покажите мне `ls -al /boot`.
heynnema avatar
флаг ru
@dnafication Загрузитесь с Ubuntu Live 21.04 USB/DVD и запустите систему достаточно долго, чтобы увидеть, есть ли проблемы.
dina avatar
флаг kz
да, я вручную установил ядро. Я попробую 21.04 и дам вам знать.
флаг cn
У меня такая же плата и процессор, как у вас, но у меня есть ECC RAM. Нет проблем с ECC, указанных в edac-utils, и, судя по этому и dmesg, он работает нормально. У меня тоже есть эта проблема. Я пытаюсь определить, проблема в плате или в 5900X. Я могу немного поменять здесь 3600. Учитывая, что это, похоже, затрагивает многих людей, я хотел бы добраться до корня этой проблемы.
heynnema avatar
флаг ru
@dnafication Статус, пожалуйста...
dina avatar
флаг kz
Я ненадолго попробовал Ubuntu live 21.04, но быстро сдался из-за проблемы с графическим драйвером и слишком большой работы по переустановке этого снова и снова. Я вернулся к Windows. Сбоев пока не наблюдаю. Немного разочарован тем, что сдался, но возиться со всеми этими настройками стоило мне много времени.
heynnema avatar
флаг ru
@dnafication Тест 21.04 должен был определить, остались ли у вас ошибки памяти. Меня не очень удивило, что могли возникнуть проблемы с графикой, хотя во время теста можно было установить видеодрайвера. Извините, что вы переходите на "другую" сторону.
Рейтинг:0
флаг kz

По предложению @heynnema мне удалось выяснить, что модель модулей DIMM, установленных на моем компьютере, не указана в их списке совместимости. Вот шаги:

  1. Посетите список поддерживаемых процессоров Веб-сайт ASRock x570 Тайчи. Узнайте тип ядра. В моем случае это было Вермеер
  2. Узнайте модель модулей DIMM, установленных в системе, запустив sudo lshw -C память (это было Ф4-3600С16-16ГТЗНК)
  3. Перейдите к Список поддерживаемой памяти для Vermeer и проверьте, поддерживается ли он. К сожалению его нет в списке! возможно, это причина непостоянных сбоев. Я попробую поддерживаемую версию модулей DIMM, чтобы увидеть, возникнут ли сбои снова, и соответствующим образом обновить этот ответ.
 *-прошивка
       описание: БИОС
       поставщик: American Megatrends Inc.
       физический идентификатор: 0
       версия: P4.30
       дата: 14.04.2021
       размер: 64 КБ
       емкость: 16 МБ
       возможности: pci update shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int9keyboard int14serial int17printer acpi usb biosbootspecification uefi
  *-Память
       описание: Системная память
       физический идентификатор: e
       слот: системная плата или материнская плата
       размер: 32 ГБ
     *-банк:0
          описание: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 МГц (0,5 нс)
          продукт: F4-3600C16-16GTZNC
          продавец: неизвестен
          физический идентификатор: 0
          серийный номер: 00000000
          слот: DIMM 0
          размер: 16 ГБ
          ширина: 64 бита
          часы: 2133 МГц (0,5 нс)
     *-банк:1
          описание: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected] >Языковая группа: английский (Австралия) <[email protected]>MIME-версия: 1.0Content-Type: text/plain; charset = UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (сборка 2d1d5e352f0d063d660df2300e31f66bed027fa5) Project-Id-Version: lshwReport-Msgid-: ПОЛНОЕ ИМЯ <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Последний переводчик: Joel Addison <[email protected]>Язык-группа: Английский (Австралия) <[email protected]> MIME-версия: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (сборка 2d1d5e352f0d063d660df2300e31f66bed027fa5) [пусто]
          продукт: неизвестно
          продавец: неизвестен
          физический идентификатор: 1
          сериал: неизвестен
          слот: DIMM 1
     *-банк:2
          описание: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 МГц (0,5 нс)
          продукт: F4-3600C16-16GTZNC
          продавец: неизвестен
          физический идентификатор: 2
          серийный номер: 00000000
          слот: DIMM 0
          размер: 16 ГБ
          ширина: 64 бита
          часы: 2133 МГц (0,5 нс)
     *-банк:3
          описание: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected] >Языковая группа: английский (Австралия) <[email protected]>MIME-версия: 1.0Content-Type: text/plain; charset = UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (сборка 2d1d5e352f0d063d660df2300e31f66bed027fa5) Project-Id-Version: lshwReport-Msgid-: ПОЛНОЕ ИМЯ <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Последний переводчик: Joel Addison <[email protected]>Язык-группа: Английский (Австралия) <[email protected]> MIME-версия: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (сборка 2d1d5e352f0d063d660df2300e31f66bed027fa5) [пусто]
          продукт: неизвестно
          продавец: неизвестен
          физический идентификатор: 3
          сериал: неизвестен
          слот: DIMM 1
  *-кеш:0
       описание: Кэш L1
       физический идентификатор: 11
       слот: L1 - Кэш
       размер: 768 КБ
       емкость: 768 КБ
       часы: 1 ГГц (1,0 нс)
       возможности: унифицированная внутренняя обратная запись с конвейерным разрывом
       конфигурация: уровень=1
  *-кеш:1
       описание: Кэш L2
       физический идентификатор: 12
       слот: L2 - Кэш
       размер: 6МиБ
       емкость: 6 МБ
       часы: 1 ГГц (1,0 нс)
       возможности: унифицированная внутренняя обратная запись с конвейерным разрывом
       конфигурация: уровень=2
  *-кеш:2
       описание: Кэш L3
       физический идентификатор: 13
       слот: L3 - Кэш
       размер: 64 МБ
       емкость: 64 МБ
       часы: 1 ГГц (1,0 нс)
       возможности: унифицированная внутренняя обратная запись с конвейерным разрывом
       конфигурация: уровень=3
heynnema avatar
флаг ru
Покажите мне `sudo lshw -C memory`. Я хочу проверить, в каких слотах находятся модули DIMM. Выньте один модуль DIMM 16G и посмотрите, не улучшится ли ситуация со сбоем.
dina avatar
флаг kz
@heynnema я добавил вывод команды в ответ выше.
флаг cn
Плата должна нормально поддерживать модули DIMM, не указанные в списке совместимости. Я построил много систем Ryzen, начиная с 1800X. Раньше я преследовал эту кроличью нору с «совместимой оперативной памятью» без каких-либо положительных результатов. Ваш пробег может отличаться. В любом случае лучше попробовать другой набор модулей DIMM.
dina avatar
флаг kz
@MishaNasledov спасибо, к сожалению, у меня нет возможности заменить модули DIMM, и я решил вернуться к Windows. Установил Win10 Pro, пока работает нормально.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.