У меня есть набор машин, идентичных по аппаратному обеспечению и почти идентичных по настройке программного обеспечения. Но один из них заполняется /var/журнал/сообщения
с:
16 июня 09:41:37 ядро h0stname: pciehp 10000:00:00.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10082 мс назад)
16 июня 09:41:37 ядро h0stname: pciehp 10000:00:01.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10082 мс назад)
16 июня 09:41:47 ядро h0stname: pciehp 10000:00:00.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10080 мс назад)
16 июня 09:41:47 ядро h0stname: pciehp 10000:00:01.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10080 мс назад)
16 июня 09:41:57 ядро h0stname: pciehp 10000:00:00.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10076 мс назад)
16 июня 09:41:57 ядро h0stname: pciehp 10000:00:01.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10076 мс назад)
16 июня 09:42:07 ядро h0stname: pciehp 10000:00:00.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10082 мс назад)
16 июня 09:42:07 ядро h0stname: pciehp 10000:00:01.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10082 мс назад)
16 июня 09:42:17 ядро h0stname: pciehp 10000:00:00.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10081 мс назад)
16 июня 09:42:17 ядро h0stname: pciehp 10000:00:01.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10081 мс назад)
16 июня 09:42:28 ядро h0stname: pciehp 10000:00:00.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10074 мс назад)
16 июня 09:42:28 ядро h0stname: pciehp 10000:00:01.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10074 мс назад)
16 июня 09:42:38 ядро h0stname: pciehp 10000:00:00.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10083 мс назад)
16 июня 09:42:38 ядро h0stname: pciehp 10000:00:01.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10083 мс назад)
16 июня 09:42:48 ядро h0stname: pciehp 10000:00:00.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10082 мс назад)
16 июня 09:42:48 ядро h0stname: pciehp 10000:00:01.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10082 мс назад)
16 июня 09:42:58 ядро h0stname: pciehp 10000:00:00.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10081 мс назад)
16 июня 09:42:58 ядро h0stname: pciehp 10000:00:01.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10081 мс назад)
16 июня 09:43:08 ядро h0stname: pciehp 10000:00:00.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10069 мс назад)
16 июня 09:43:08 ядро h0stname: pciehp 10000:00:01.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10069 мс назад)
16 июня, 09:43:18 ядро h0stname: pciehp 10000:00:00.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10079 мс назад)
16 июня 09:43:18 ядро h0stname: pciehp 10000:00:01.0:pcie04: тайм-аут команды горячего подключения 0x13f8 (выпущено 10079 мс назад)
Предположительно железка не слишком радует.Как мне продолжить, чтобы выяснить, какая именно часть оборудования вызывает жалобы? Вроде бы все работает, кроме как с заведомо неисправным диском в RAID. Обычно я бы начал отключать вещи, чтобы сузить круг, но на данный момент у меня есть только SSH, а таблица оборудования огромна.
Все, что я знаю, это то, что это относится к мосту PCI, т.к. lspci
перечисляет соответствующий адрес:
10000:00:00.0 Мост PCI: Intel Corporation Sky Lake-E PCI Express Root Port A (версия 04)
10000:00:01.0 Мост PCI: Intel Corporation Sky Lake-E PCI Express Root Port B (версия 04)
Запуск Centos 7, ядро 3.10.0-693.21.1.el7.x86_64