Рейтинг:1

Черный экран, ошибка PCIe с графическим процессором AMD и серверной материнской платой

флаг cn

В нашей группе есть рабочая станция с материнской платой KNPA-U16 и графическим процессором AMD RX560, который работает в большинстве случаев. Операционная система — Kubuntu 20.04 и версия ядра 5.8.0-59.

Теперь проблема возникает, когда мы некоторое время не используем рабочую станцию, а затем пытаемся получить к ней доступ перед ней. Поведение следующее: Экран появляется на короткое время (колеблется в пределах ~ 0-10 с), а затем становится черным. Как уже говорилось, время меняется, однажды я даже смог войти в систему до того, как экран погас. Больше нет возможности разбудить его после этого события. Однако он доступен через ssh.

Журнал ядра показывает следующее:

09:27:51 Ядро PC3: [165861.461855] {1}[Аппаратная ошибка]: аппаратная ошибка от APEI Generic Hardware Error Source: 4  
09:27:51 Ядро PC3: [165861.461858] {1}[Аппаратная ошибка]: серьезность события: информация  
09:27:51 Ядро PC3: [165861.461860] {1}[Аппаратная ошибка]: ошибка 0, тип: фатальная  
09:27:51 Ядро PC3: [165861.461861] {1}[Аппаратная ошибка]: fru_text: PcieError  
09:27:51 Ядро PC3: [165861.461862] {1}[Аппаратная ошибка]: section_type: ошибка PCIe  
09:27:51 Ядро ПК3: [165861.461863] {1}[аппаратная ошибка]: тип_порта: 4, корневой порт  
09:27:51 Ядро PC3: [165861.461864] {1}[Аппаратная ошибка]: версия: 0.2  
09:27:51 Ядро PC3: [165861.461866] {1}[Аппаратная ошибка]: команда: 0x0407, состояние: 0x0010  
09:27:51 Ядро PC3: [165861.461867] {1}[Аппаратная ошибка]: device_id: 0000:20:03.1  
09:27:51 Ядро ПК3: [165861.461868] {1}[Аппаратная ошибка]: слот: 7  
09:27:51 Ядро ПК3: [165861.461868] {1}[аппаратная ошибка]: вторичная_шина: 0x23  
09:27:51 Ядро PC3: [165861.461869] {1}[Аппаратная ошибка]: vendor_id: 0x1022, device_id: 0x1453  
09:27:51 Ядро PC3: [165861.461870] {1}[Аппаратная ошибка]: class_code: 060400  
09:27:51 Ядро ПК3: [165861.461871] {1}[аппаратная ошибка]: мост: вторичное_статус: 0x2000, управление: 0x001a  
09:27:51 Ядро PC3: [165861.461872] {1}[Аппаратная ошибка]: aer_uncor_status: 0x00000000, aer_uncor_mask: 0x04500000  
09:27:51 Ядро PC3: [165861.461873] {1}[Аппаратная ошибка]: aer_uncor_severity: 0x004e2030  
09:27:51 Ядро PC3: [165861.461874] {1}[Аппаратная ошибка]: Заголовок TLP: 00000000 00000000 00000000 00000000  
09:27:51 Ядро ПК3: [165861.461933] pcieport 0000:20:03.1: AER: aer_status: 0x00000000, aer_mask: 0x04500000  
09:27:51 Ядро PC3: [165861.461939] pcieport 0000:20:03.1: AER: aer_layer=уровень транзакции, aer_agent=идентификатор получателя  
09:27:51 Ядро ПК3: [165861.461941] pcieport 0000:20:03.1: AER: aer_uncor_severity: 0x004e2030  
09:27:51 Ядро PC3: [165861.461945] amdgpu 0000:23:00.0: AER: невозможно восстановить (нет обратного вызова error_detected)  
09:27:51 Ядро PC3: [165861.461947] snd_hda_intel 0000:23:00.1: AER: невозможно восстановить (нет обратного вызова error_detected)  
09:27:52 Ядро ПК3: [165862.485806] pcieport 0000:20:03.1: AER: Ссылка на корневой порт сброшена  
09:27:52 Ядро PC3: [165862.485854] pcieport 0000:20:03.1: AER: успешное восстановление устройства   
09:28:02 Ядро PC3: [165866.837702] [drm:amdgpu_dm_commit_planes.constprop.0 [amdgpu]] *ОШИБКА* Истекло время ожидания забора!  
09:28:02 Ядро ПК3: [165872.219438] [drm:amdgpu_job_timedout [amdgpu]] *ОШИБКА* тайм-аут кольцевого gfx, сигнализированная последовательность = 841906, переданная последовательность = 841908  
09:28:02 Ядро ПК3: [165872.219526] [drm:amdgpu_job_timedout [amdgpu]] *ОШИБКА* Информация о процессе: процесс sddm-greeter pid 88965 поток sddm-greet:cs0 pid 88969  
09:28:02 Ядро PC3: [165872.219534] amdgpu 0000:23:00.0: amdgpu: Начинается сброс графического процессора!  
09:28:02 Ядро PC3: [165872.219865] amdgpu:   
09:28:02 Ядро PC3: [165872.219865] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219870] amdgpu:   
09:28:02 Ядро PC3: [165872.219870] не удалось отправить сообщение 281, ret is 65535   
09:28:02 Ядро PC3: [165872.219879] amdgpu:   
09:28:02 Ядро PC3: [165872.219879] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219883] amdgpu:   
09:28:02 Ядро PC3: [165872.219883] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219887] amdgpu:   
09:28:02 Ядро PC3: [165872.219887] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219890] amdgpu:   
09:28:02 Ядро PC3: [165872.219890] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219894] amdgpu:   
09:28:02 Ядро PC3: [165872.219894] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219897] amdgpu:   
09:28:02 Ядро PC3: [165872.219897] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219901] amdgpu:   
09:28:02 Ядро PC3: [165872.219901] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219905] amdgpu:   
09:28:02 Ядро PC3: [165872.219905] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219909] amdgpu:   
09:28:02 Ядро PC3: [165872.219909] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219912] amdgpu:   
09:28:02 Ядро PC3: [165872.219912] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219916] amdgpu:   
09:28:02 Ядро PC3: [165872.219916] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219919] amdgpu:   
09:28:02 Ядро PC3: [165872.219919] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219923] amdgpu:   
09:28:02 Ядро PC3: [165872.219923] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219926] amdgpu:   
09:28:02 Ядро PC3: [165872.219926] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219930] amdgpu:   
09:28:02 Ядро PC3: [165872.219930] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219933] amdgpu:   
09:28:02 Ядро PC3: [165872.219933] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219937] amdgpu:   
09:28:02 Ядро PC3: [165872.219937] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219940] amdgpu:   
09:28:02 Ядро PC3: [165872.219940] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219944] amdgpu:   
09:28:02 Ядро PC3: [165872.219944] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219947] amdgpu:   
09:28:02 Ядро PC3: [165872.219947] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219951] amdgpu:   
09:28:02 Ядро PC3: [165872.219951] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219954] amdgpu:   
09:28:02 Ядро PC3: [165872.219954] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219958] amdgpu: 
09:28:02 Ядро PC3: [165872.219958] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219961] amdgpu:   
09:28:02 Ядро PC3: [165872.219961] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219965] amdgpu:   
09:28:02 Ядро PC3: [165872.219965] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219968] amdgpu:   
09:28:02 Ядро PC3: [165872.219968] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219972] amdgpu:   
09:28:02 Ядро PC3: [165872.219972] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219975] amdgpu:   
09:28:02 Ядро PC3: [165872.219975] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219978] amdgpu:   
09:28:02 Ядро PC3: [165872.219978] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219981] amdgpu:   
09:28:02 Ядро PC3: [165872.219981] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219985] amdgpu:   
09:28:02 Ядро PC3: [165872.219985] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219988] amdgpu:   
09:28:02 Ядро PC3: [165872.219988] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.219992] amdgpu:   
09:28:02 Ядро PC3: [165872.219992] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.219995] amdgpu:   
09:28:02 Ядро PC3: [165872.219995] не удалось отправить сообщение 261, ret is 65535   
09:28:02 Ядро PC3: [165872.220169] amdgpu:   
09:28:02 Ядро PC3: [165872.220169] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.220173] amdgpu:   
09:28:02 Ядро PC3: [165872.220173] не удалось отправить сообщение 306, ret is 65535   
09:28:02 Ядро PC3: [165872.220175] amdgpu:   
09:28:02 Ядро PC3: [165872.220175] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.220179] amdgpu:   
09:28:02 Ядро PC3: [165872.220179] не удалось отправить сообщение 5e, ret is 65535   
09:28:02 Ядро PC3: [165872.220183] amdgpu:   
09:28:02 Ядро PC3: [165872.220183] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.220186] amdgpu:   
09:28:02 Ядро PC3: [165872.220186] не удалось отправить сообщение 145, ret is 65535   
09:28:02 Ядро PC3: [165872.220190] amdgpu:   
09:28:02 Ядро PC3: [165872.220190] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.220195] amdgpu:   
09:28:02 Ядро PC3: [165872.220195] не удалось отправить сообщение 146, ret is 65535   
09:28:02 Ядро PC3: [165872.220200] amdgpu:   
09:28:02 Ядро PC3: [165872.220200] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.220203] amdgpu:   
09:28:02 Ядро PC3: [165872.220203] не удалось отправить сообщение 148, ret is 65535   
09:28:02 Ядро PC3: [165872.220207] amdgpu:   
09:28:02 Ядро PC3: [165872.220207] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро ПК3: [165872.220210] amdgpu:   
09:28:02 Ядро PC3: [165872.220210] не удалось отправить сообщение 145, ret is 65535   
09:28:02 Ядро PC3: [165872.220215] amdgpu:   
09:28:02 Ядро PC3: [165872.220215] последнее сообщение было ошибочным, ret is 65535  
09:28:02 Ядро PC3: [165872.220219] amdgpu:   
09:28:02 Ядро PC3: [165872.220219] не удалось отправить сообщение 146, ret is 65535   
09:28:22 Ядро PC3: [165892.248439] [drm:atom_op_jump [amdgpu]] *ОШИБКА* atombios застрял в цикле более чем на 20 секунд прерывания  
09:28:22 Ядро PC3: [165892.248505] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *ОШИБКА* atombios завис при выполнении D8DE (len 824, WS 0, PS 0) @ 0xDA5E  
09:28:22 Ядро PC3: [165892.248569] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *ОШИБКА* atombios завис при выполнении D798 (len 326, WS 0, PS 0) @ 0xD888  
09:28:22 Ядро ПК3: [165892.248664] [drm:dce110_link_encoder_disable_output [amdgpu]] *ОШИБКА* dce110_link_encoder_disable_output: не удалось выполнить таблицу команд VBIOS!  

У нас была проблема уже давно (~ 1 год, она видна в журнале событий SMBIOS), и мы попробовали кое-что:

  • Извлеките видеокарту из слота PCIe и снова подключите ее.
  • Установка нового ядра
  • Установка проприетарных драйверов amdgpu
  • Отключив все настройки сна в Kubuntu, мы смогли найти
  • Использование pcie_aspm=off
  • Использование другого экрана (порт DVI/Display)
  • Изменение некоторых настроек BIOS, связанных с PCIe

Однако ничего из того, что мы делаем, похоже, ничего не меняет. Что делает эту проблему настолько сложной, так это то, что она появляется только в том случае, если ПК не используется в течение некоторого времени. Так что это действительно боль, чтобы проверить что-либо.

Кто-нибудь знает, в чем может быть ошибка или где мы можем начать искать на основе журнала?


Обновление: мы протестировали видеокарту на другом ПК с Windows, и она работала нормально. После этого мы установили Win 10 на тот же компьютер, и он также работает без проблем. Так что, похоже, это комбинация GPU + материнская плата + KDE neon. Кажется, Linux допускает какое-то состояние энергосбережения, которое не подходит для материнской платы. Однако мы много искали и не нашли ни одной опции гибернации, которую мы не отключили.

nobody avatar
флаг gh
`lspci-nn | grep 1453` пожалуйста.это действительно одна из ваших видеокарт? Пожалуйста, попробуйте bootoption `mce=off` # Отключите проверку компьютера, но только если компьютер работает без ошибок при использовании. для безопасности проверьте свой баран.
amh23 avatar
флаг cn
спасибо, это вывод: `00:03.1 Мост PCI [0604]: Advanced Micro Devices, Inc. [AMD] Семейство 17h (модели 00h-0fh) Мост PCIe GPP [1022:1453] 20:01.2 Мост PCI [0604]: Advanced Micro Devices, Inc. [AMD] Семейство 17h (модели 00h-0fh) Мост PCIe GPP [1022:1453] 20:03.1 Мост PCI [0604]: Advanced Micro Devices, Inc. [AMD] Семейство 17h (модели 00h-0fh) Мост PCIe GPP [1022:1453] 60:01.1 Мост PCI [0604]: Advanced Micro Devices, Inc. [AMD], семейство 17h (модели 00h-0fh), мост PCIe GPP [1022:1453]` Однако, насколько мы знаем из других задействованных идентификаторов, это PCIe-мост графического процессора.
amh23 avatar
флаг cn
У нас есть ECC-Ram, и недавно мы проверили, все ли в порядке с edac-util. Как вы думаете, почему `mce=off` может помочь? Насколько я понимаю, это настройка, связанная с процессором. Как вы думаете, это может быть связано с жарой?

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.