При копировании больших файлов (50+ ГБ) с диска NVMe на жесткий диск SATA 7200 об/мин я вижу следующую ошибку в журналах полностью исправленной Ubuntu 20.04:
08 августа 00:45:59 ядро хоста: ata6.00: исключение Emask 0x20 SAct 0x0 SErr 0x0 действие 0x6 заморожено
08 августа 00:45:59 ядро хоста: ata6.00: irq_stat 0x20000000, ошибка шины хоста
08 августа, 00:45:59 ядро хоста: ata6.00: ошибка команды: WRITE DMA EXT
08 августа 00:45:59 ядро хоста: ata6.00: cmd 35/00:08:30:a2:e0/00:00:e8:00:00/e0 тег 23 dma 4096 out
res 50/00:00:00:00:00/00:00:00:00:00/00 Emask 0x20 (ошибка хост-шины)
08 августа 00:45:59 ядро хоста: ata6.00: статус: {DRDY}
08 августа 00:45:59 ядро хоста: ata6: ссылка на жесткий сброс
08 августа, 00:46:00 ядро хоста: ata6: соединение SATA 6,0 Гбит/с (SStatus 133 SControl 300)
08 августа 00:46:00 ядро хоста: ata6.00: настроено для UDMA/133
08 августа 00:46:00 ядро хоста: ata6: EH завершено
ата6.00
это диск, на который выполняется запись.
Проблема прерывистая. Иногда не появляется по 24 часа, иногда пару раз в час.
Часто диск восстанавливается, но иногда файловая система просто повреждается, ее необходимо размонтировать, восстановить (если возможно) и перемонтировать.
Что я пробовал:
- Я пробовал 3 разных марки HDD. У всех одна и та же проблема.
- Я подозревал аппаратную проблему. Я заменил материнскую плату и кабели SATA. Ничего из этого не помогло.
- У меня есть другой сервер с идентичной конфигурацией.Проблема возникает не там. Одинаковая нагрузка.
- У меня есть еще один сервер с совершенно другой конфигурацией (Intel vs. AMD). Проблема возникает там. Одинаковая нагрузка.
- Я отключил NCQ через
эхо 1 > /sys/block/sda/device/queue_depth
. Не помогло.
У меня закончились идеи...
Все это компоненты уровня центра обработки данных. Учитывая шаги, которые я предпринял, я полагаю, что это не производственный дефект оборудования.
Может ли это быть связано с программным обеспечением/ОС/БИОС?
Любые идеи, что еще я должен попробовать?