У меня есть сервер под управлением CentOS 8, ядро однажды рухнуло, и я нашел следующие три файла в /вар/сбой
: vmcore
, vmcore-dmesg.txt
, и kexec-dmesg.log
.
я сначала посмотрел vmcore-dmesg.txt
, что дает мне следующую информацию в конце
[291071.552140] {2}[Аппаратная ошибка]: Аппаратная ошибка из общей аппаратной ошибки APEI Источник: 1
[291071.552141] {2}[Аппаратная ошибка]: серьезность события: фатальная
[291071.552141] {2}[Аппаратная ошибка]: ошибка 0, тип: фатальная
[291071.552142] {2}[Аппаратная ошибка]: section_type: ошибка PCIe
[291071.552142] {2}[Аппаратная ошибка]: port_type: 4, корневой порт
[291071.552142] {2}[Аппаратная ошибка]: версия: 3.0
[291071.552143] {2}[Аппаратная ошибка]: команда: 0x0547, состояние: 0x4010
[291071.552143] {2}[Аппаратная ошибка]: device_id: 0000:16:01.0
[291071.552143] {2}[Аппаратная ошибка]: слот: 82
[291071.552144] {2}[Аппаратная ошибка]: вторичная_шина: 0x18
[291071.552144] {2}[Аппаратная ошибка]: vendor_id: 0x8086, device_id: 0x2031
[291071.552145] {2}[Аппаратная ошибка]: class_code: 000406
[291071.552145] {2}[Аппаратная ошибка]: мост: вторичное_статус: 0x0000, управление: 0x0013
[291071.552145] {2}[Аппаратная ошибка]: aer_uncor_status: 0x00000020, aer_uncor_mask: 0x00100000
[291071.552146] {2}[Аппаратная ошибка]: aer_uncor_severity: 0x00062030
[291071.552146] {2}[Аппаратная ошибка]: Заголовок TLP: 00000000 00000000 00000000 00000000
[291071.552146] Паника ядра — не синхронизация: фатальная аппаратная ошибка!
[291071.552147] CPU: 0 PID: 0 Связь: swapper/0 Kdump: загружен Не испорчен 4.18.0-305.3.1.el8.x86_64 #1
[291071.552147] Название оборудования: Заполняется OEM.Заполняет OEM/EPC621D8A, BIOS P2.10 03.04.2019
[291071.552148] Отслеживание вызовов:
[291071.552148] <НМИ>
[291071.552148] dump_stack+0x5c/0x80
[291071.552149] паника+0xe7/0x2a9
[291071.552149] __ghes_panic.cold.32+0x21/0x21
[291071.552149] ghes_notify_nmi+0x273/0x310
[291071.552149] nmi_handle+0x63/0x110
[291071.552150] default_do_nmi+0x49/0x100
[291071.552150] do_nmi+0x17e/0x1e0
[291071.552150] end_repeat_nmi+0x16/0x6f
[291071.552151] RIP: 0010: intel_idle+0x6b/0xb0
[291071.552151] Код: 40 5c 01 00 48 89 d1 0f 01 c8 48 8b 00 a8 08 75 19 e9 07 00 00 00 0f 00 2d 1e 01 55 00 c1 ee 18 b9 01 00 00 <f> 91 00 80 f0 48 8b 04 25 40 5c 01 00 f0 80 60 02 df f0 83 44 24 fc 00 48 8b
[291071.552152] RSP: 0018:ffffffff8fe03e40 EFLAGS: 00000002
[291071.552152] RAX: 0000000000000020 RBX: ffffffff8ff30ba8 RCX: 0000000000000001
[291071.552153] RDX: 0000000000000000 RSI: 0000000000000020 RDI: 00000000000000003
[291071.552153] RBP: ffff9e4a20835ad8 R08: 0000000000000002 R09: 0000000000029700
[291071.552154] R10: 0002cd7f37820a74 R11: ffff9e4a20828be4 R12: ffffffff8ff30a40
[291071.552154] R13: 0000000000000003 R14: 0000000000000003 R15: 00000000000000003
[291071.552154] ? intel_idle+0x6b/0xb0
[291071.552154] ? intel_idle+0x6b/0xb0
[291071.552155] </NMI>
[291071.552155] cpuidle_enter_state+0x87/0x3c0
[291071.552155] cpuidle_enter+0x2c/0x40
[291071.552156] do_idle+0x234/0x260
[291071.552156] cpu_startup_entry+0x6f/0x80
[291071.552156] start_kernel+0x518/0x538
[291071.552157]secondary_startup_64_no_verify+0xc2/0xcb
С использованием lspci
, Я могу найти 0000:16.01.0
является
16:01.0 Мост PCI: Intel Corporation Sky Lake-E PCI Express Root Port B (версия 02)
, который, кажется, является корнем PCI-E.
и
lspci -s 16:01.0 -tvv
0000:16:01.0-[18-1b]----00.0-[19-1b]----03.0-[1a-1b]--+-00.0 Intel Corporation Ethernet Connection X722 для 1GbE
+-00.1 Ethernet-соединение корпорации Intel X722 для 1GbE
+-00.2 Ethernet-соединение корпорации Intel X722 для 1GbE
\-00.3 Ethernet-соединение Intel Corporation X722 для 1GbE
Затем я посмотрел на kexec-dmesg.log
файл, в котором говорится
[Чт, 10 июня, 20:02:45 2021] Диспетчер памяти не очищается во время удаления.
[Чт, 10 июня, 20:02:45 2021] ВНИМАНИЕ: ЦП: 0 PID: 399 в драйверах/gpu/drm/drm_mm.c:999 drm_mm_takedown+0x1f/0x30 [drm]
[Thu Jun 10 20:02:45 2021] Modules linked in: amdgpu(+) sd_mod t10_pi sg iommu_v2 gpu_sched i2c_algo_bit ttm drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops crc32c_intel drm ahci libahci uas libata usb_storage dm_mirror dm_region_hash dm_log dm_mod fuse overlay squashfs loop
[Чт, 10 июня 20:02:45 2021] ЦП: 0 PID: 399 Связь: systemd-udevd Заражено: G W --------- - - 4.18.0-305.3.1.el8.x86_64 #1
[Чт, 10 июня, 20:02:45 2021] Название оборудования: будет заполнено OEM. Заполняет OEM/EPC621D8A, BIOS P2.10 03.04.2019
[Чт, 10 июня, 20:02:45 2021] RIP: 0010:drm_mm_takedown+0x1f/0x30 [drm]
[Чт, 10 июня 20:02:45 2021] Код: f6 c3 48 8d 41 c0 eb bb 0f 1f 00 0f 1f 44 00 00 48 8b 47 38 48 83 c7 38 48 39 c7 75 01 c3 48 c7 c7 58 57 1b c0 e8 da b6 f6 c0 <0f> 0b c3 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 00 0f 1f 44 00 00
[Чт, 10 июня, 20:02:45 2021] RSP: 0018:ffffc90000747a10 EFLAGS: 00010282
[Чт, 10 июня, 20:02:45 2021] RAX: 0000000000000000 RBX: ffff88805d44caf0 RCX: ffffffff8265f1c8
[Чт, 10 июня, 20:02:45 2021] RDX: 0000000000000001 RSI: 0000000000000096 RDI: 00000000000000246
[Чт, 10 июня, 20:02:45 2021] RBP: ffff888050e65030 R08: 00000000000005e6 R09: 0000000000aaaaaa
[Чт, 10 июня, 20:02:45 2021] R10: 0000000000000000 R11: ffffc900009e0320 R12: ffff88805d44ca00
[Чт, 10 июня 20:02:45 2021] R13: ffff888050e64f68 R14: 0000000000000000 R15: 00000000000000000
[Чт, 10 июня, 20:02:45 2021] FS: 00007f16a3901180(0000) GS:ffff88805ea00000(0000) knlGS:0000000000000000
[Чт, 10 июня, 20:02:45 2021] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[Чт, 10 июня, 20:02:45 2021] CR2: 0000564d0235b008 CR3: 000000005d5b6002 CR4: 00000000007706b0
[Чт, 10 июня, 20:02:45 2021] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 00000000000000000
[Чт, 10 июня, 20:02:45 2021] DR3: 0000000000000000 DR6: 00000000ffe0ff0 DR7: 0000000000000400
[Чт, 10 июня 20:02:45 2021] ПКРУ: 55555554
[Чт, 10 июня, 20:02:45 2021] Отслеживание вызовов:
[Чт, 10 июня, 20:02:45 2021] amdgpu_gtt_mgr_fini+0x2d/0x80 [amdgpu]
[Чт, 10 июня, 20:02:45 2021] ttm_bo_clean_mm+0xa8/0xc0 [ttm]
[Чт, 10 июня, 20:02:45 2021] amdgpu_ttm_fini+0x98/0xe0 [amdgpu]
[Чт, 10 июня, 20:02:45 2021] amdgpu_bo_fini+0xe/0x30 [amdgpu]
[Чт, 10 июня, 20:02:45 2021] gmc_v9_0_sw_fini+0x59/0xa0 [amdgpu]
[Чт, 10 июня, 20:02:45 2021] amdgpu_device_fini+0x297/0x4af [amdgpu]
[Чт, 10 июня, 20:02:45 2021] amdgpu_driver_unload_kms+0x3e/0x70 [amdgpu]
[Чт, 10 июня, 20:02:45 2021] amdgpu_driver_load_kms+0x122/0x2a0 [amdgpu]
[Чт, 10 июня, 20:02:45 2021] amdgpu_pci_probe+0xd1/0x150 [amdgpu]
[Чт, 10 июня, 20:02:45 2021] local_pci_probe+0x41/0x90
[Чт, 10 июня, 20:02:45 2021] pci_device_probe+0x105/0x1c0
[Чт, 10 июня, 20:02:45 2021] real_probe+0x255/0x4a0
[Чт, 10 июня, 20:02:45 2021] driver_probe_device+0x49/0xc0
[Чт, 10 июня, 20:02:45 2021] device_driver_attach+0x50/0x60
[Чт, 10 июня, 20:02:45 2021] __driver_attach+0x61/0x130
[Чт, 10 июня 20:02:45 2021] ? device_driver_attach+0x60/0x60
[Чт, 10 июня, 20:02:45 2021] bus_for_each_dev+0x77/0xc0
[Чт, 10 июня 20:02:45 2021] ? klist_add_tail+0x3b/0x70
[Чт, 10 июня, 20:02:45 2021] bus_add_driver+0x14d/0x1e0
[Чт, 10 июня 20:02:45 2021] ? 0xffffffffc07d3000
[Чт, 10 июня, 20:02:45 2021] driver_register+0x6b/0xb0
[Чт, 10 июня 20:02:45 2021] ? 0xffffffffc07d3000
[Чт, 10 июня, 20:02:45 2021] do_one_initcall+0x46/0x1c3
[Чт, 10 июня 20:02:45 2021] ? do_init_module+0x22/0x220
[Чт, 10 июня 20:02:45 2021] ? kmem_cache_alloc_trace+0x131/0x270
[Чт, 10 июня, 20:02:45 2021] do_init_module+0x5a/0x220
[Чт, 10 июня, 20:02:45 2021] load_module+0x14c5/0x17f0
[Чт, 10 июня 20:02:45 2021] ? __switch_to_asm+0x35/0x70
[Чт, 10 июня 20:02:45 2021] ? __switch_to_asm+0x41/0x70
[Чт, 10 июня 20:02:45 2021] ? __switch_to_asm+0x35/0x70
[Чт, 10 июня 20:02:45 2021] ? __switch_to_asm+0x41/0x70
[Чт, 10 июня 20:02:45 2021] ? apic_timer_interrupt+0xa/0x20
[Чт, 10 июня 20:02:45 2021] ? __do_sys_init_module+0x13b/0x180
[Чт, 10 июня, 20:02:45 2021] __do_sys_init_module+0x13b/0x180
[Чт, 10 июня, 20:02:45 2021] do_syscall_64+0x5b/0x1a0
[Чт, 10 июня, 20:02:45 2021] entry_SYSCALL_64_after_hwframe+0x65/0xca
[Чт, 10 июня, 20:02:45 2021] RIP: 0033:0x7f16a24df80e
[Чт, 10 июня 20:02:45 2021] Код: 48 8b 0d 7d 16 2c 00 f7 d8 64 89 01 48 83 c8 ff c3 66 2e 0f 1f 84 00 00 00 00 00 90 f3 0f 1e fa 49 89 ca b8 af 00 00 00 0f 05 <48> 3d 01 f0 ff ff 73 01 c3 48 8b 0d 4a 16 2c 00 f7 d8 64 89 01 48
[Чт, 10 июня, 20:02:45 2021] RSP: 002b:00007ffc5a383dd8 EFLAGS: 00000246 ORIG_RAX: 00000000000000af
[Чт, 10 июня, 20:02:45 2021] RAX: ffffffffffffffda RBX: 0000558aa33c7ee0 RCX: 00007f16a24df80e
[Чт, 10 июня, 20:02:45 2021] RDX: 0000558aa33c85e0 RSI: 00000000009621ec RDI: 0000558aa3def1a0
[Чт, 10 июня, 20:02:45 2021] RBP: 0000558aa33c85e0 R08: 0000558aa33c301a R09: 00000000000000003
[Чт, 10 июня 20:02:45 2021] R10: 0000558aa33c3010 R11: 0000000000000246 R12: 0000558aa3def1a0
[Чт, 10 июня, 20:02:45 2021] R13: 0000558aa33dabf0 R14: 0000000000020000 R15: 00000000000000000
[Чт, 10 июня 20:02:45 2021] ---[ конец трассировки 0950097d77ca3e03 ]---
Что мне кажется связано с драйвером графического процессора.
Насколько я понимаю, при сбое ядра кдамп
пытается загрузить другое ядро, используя кексек
чтобы сбросить разбитое ядро. Затем журнал кажется мне, что какая-то аппаратная ошибка PCI-E приводит к сбою основного ядра, и когда кдамп
ядро запускается, оно снова падает из-за ошибки драйвера графического процессора. Я правильно это понимаю? Или логи показывались в kexec-dmesg.log
на самом деле это трассировка стека основного ядра?
Мой второй вопрос заключается в том, как понимать эти сообщения об ошибках. Поскольку кажется, что к корню PCI-E подключена только сетевая карта, что-то не так с моей материнской платой / процессором или проблема, вероятно, связана с ядром?
Дополнительная информация, которую я нашел в /вар/журнал
что часто происходит следующая ошибка, которая не приводит к сбою ядра
7 июня, 11:12:20, ядро локального хоста: {1}[Аппаратная ошибка]: аппаратная ошибка из-за общей аппаратной ошибки APEI. Источник: 0
7 июня, 11:12:20, ядро локального хоста: {1}[аппаратная ошибка]: исправлено аппаратно и не требует дальнейших действий.
7 июня, 11:12:20, ядро локального хоста: {1}[аппаратная ошибка]: серьезность события: исправлено
7 июня, 11:12:20, ядро localhost: {1}[аппаратная ошибка]: ошибка 0, тип: исправлено
7 июня 11:12:20 ядро локального хоста: {1}[аппаратная ошибка]: section_type: ошибка PCIe
7 июня, 11:12:20, ядро локального хоста: {1}[аппаратная ошибка]: port_type: 5, восходящий порт коммутатора
7 июня 11:12:20 ядро локального хоста: {1}[аппаратная ошибка]: версия: 3.0
7 июня 11:12:20 ядро локального хоста: {1}[аппаратная ошибка]: команда: 0x0147, состояние: 0x0010
7 июня 11:12:20 ядро локального хоста: {1}[аппаратная ошибка]: device_id: 0000:18:00.0
7 июня 11:12:20 ядро локального хоста: {1}[аппаратная ошибка]: слот: 82
7 июня 11:12:20 ядро локального хоста: {1}[аппаратная ошибка]: вторичная_шина: 0x19
7 июня, 11:12:20, ядро локального хоста: {1}[аппаратная ошибка]: vendor_id: 0x8086, device_id: 0x37c0
7 июня 11:12:20 ядро локального хоста: {1}[аппаратная ошибка]: class_code: 000406
7 июня 11:12:20 ядро локального хоста: {1}[аппаратная ошибка]: мост: вторичное_статус: 0x2000, управление: 0x0013
7 июня 11:12:20 ядро локального хоста: pcieport 0000:18:00.0: aer_status: 0x00003000, aer_mask: 0x00002000
7 июня 11:12:20 ядро локального хоста: pcieport 0000:18:00.0: [12] Тайм-аут
7 июня, 11:12:20, ядро localhost: pcieport 0000:18:00.0: aer_layer=канальный уровень, aer_agent=идентификатор передатчика
куда 18:00.0
это мост PCI 18:00.0 Мост PCI: Intel Corporation Device 37c0 (версия 09)
и
lspci -s 18:00.0 -tvv
0000:18:00.0-[19-1b]----03.0-[1a-1b]--+-00.0 Intel Corporation Ethernet Connection X722 для 1GbE
+-00.1 Ethernet-соединение корпорации Intel X722 для 1GbE
+-00.2 Ethernet-соединение корпорации Intel X722 для 1GbE
\-00.3 Ethernet-соединение Intel Corporation X722 для 1GbE
Любая помощь будет оценена.