Рейтинг:0

Ошибки SATA отображаются в Journalctl, в то время как SMART Diagnostic в порядке - проблема с материнской платой?

флаг us

Заметив аномально длительные задержки операций с дисками, я поискал journalctl и вот что нашел:

22 февраля 14:02:11.711182 Ядро Onan01: ata10: ссылка на жесткий сброс
22 февраля 14:02:12.186958 Ядро Onan01: ata10: соединение SATA со скоростью 1,5 Гбит/с (SStatus 113 SControl 310)
22 февраля 14:02:12.187044 Ядро Onan01: ata10.00: настроено для UDMA/33
22 февраля 14:02:12.187068 Ядро Onan01: ata10: EH завершено
22 февраля 14:02:22.782960 Ядро Onan01: ata10: соединение SATA со скоростью 1,5 Гбит/с (SStatus 113 SControl 310)
22 февраля 14:02:22.783033 Ядро Onan01: ata10.00: настроено для UDMA/33
22 февраля 14:03:27.472083 Ядро Onan01: ata10.00: исключение Emask 0x0 SAct 0x0 SErr 0xd0000 действие 0x6 заморожено
22 февраля 14:03:27.472241 Ядро Onan01: ata10: SError: {PHYRdyChg CommWake 10B8B}
22 февраля 14:03:27.472271 Ядро Onan01: ata10.00: команда с ошибкой: WRITE DMA EXT
22 февраля 14:03:27.472300 Ядро Onan01: ata10.00: cmd 35/00:18:00:35:44/00:00:74:00:00/e0 тег 14 dma 12288 out
                                               res 40/00:01:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (тайм-аут)
22 февраля 14:03:27.472323 Ядро Onan01: ata10.00: статус: {DRDY}
22 февраля 14:03:27.472345 Ядро Onan01: ata10: ссылка на жесткий сброс
22 февраля 14:03:27.950979 Ядро Onan01: ata10: соединение SATA со скоростью 1,5 Гбит/с (SStatus 113 SControl 310)
22 февраля 14:03:27.951084 Ядро Onan01: ata10.00: настроено для UDMA/33
22 февраля 14:03:27.951113 Ядро Onan01: ata10: EH завершено
22 февраля 14:04:03.852081 Ядро Onan01: ata10.00: исключение Emask 0x10 SAct 0x0 SErr 0x40d0000 действие 0xe заморожено
22 февраля 14:04:03.852242 Ядро Onan01: ata10.00: irq_stat 0x00000040, статус подключения изменен
22 февраля 14:04:03.852274 Ядро Onan01: ata10: SError: {PHYRdyChg CommWake 10B8B DevExch}
22 февраля 14:04:03.852301 Ядро Onan01: ata10.00: команда с ошибкой: WRITE DMA EXT
22 февраля 14:04:03.852325 Ядро Onan01: ata10.00: cmd 35/00:38:58:35:44/00:00:74:00:00/e0 тег 17 dma 28672 out
                                               res 50/00:00:38:23:00/00:00:ac:00:00/e0 Emask 0x10 (ошибка шины ATA)
22 февраля 14:04:03.852357 Ядро Onan01: ata10.00: статус: {DRDY}

Первый тип ошибки (тайм-аут) кажется более частым, чем второй (ошибка шины ATA). Каждого довольно много. SATA-канал ата10 подключен к жесткому диску WD Caviar Green.

Диагностика SMART на этом диске, по-видимому, чистая:

sudo smartctl --все /dev/sdf1
smartctl 7.1 30.12.2019 r5022 [x86_64-linux-5.4.0-100-generic] (локальная сборка)
Copyright (C) 2002-19, Брюс Аллен, Кристиан Франке, www.smartmontools.org

=== НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА ===
Модель устройства: WDC WD20EZAZ-00GGJB0
Серийный номер: WD-WXT1A29LE265
LU WWN Идентификатор устройства: 5 0014ee 211b07a4f
Версия прошивки: 80.00A80
Емкость пользователя: 2 000 398 934 016 байт [2,00 ТБ]
Размер сектора: 512 байт логический, 4096 байт физический
Скорость вращения: 5400 об/мин
Форм-фактор: 3,5 дюйма
Устройство: отсутствует в базе данных smartctl [для получения подробной информации используйте: -P showall]
Версия ATA: ACS-3 T13/2161-D, редакция 5
Версия SATA: SATA 3.1, 6,0 Гбит/с (текущая: 6,0 Гбит/с)
Местное время: 23 февраля 11:37:14 2022 IST
Поддержка SMART: Доступна — устройство поддерживает SMART.
Поддержка SMART: включена

=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Результат теста SMART для самооценки общего состояния здоровья: ПРОЙДЕН

Общие ценности SMART:
Состояние сбора данных в автономном режиме: (0x00) Активность сбора данных в автономном режиме
                    никогда не запускался.
                    Автоматический сбор данных в автономном режиме: отключен.
Статус выполнения самопроверки: ( 0) Предыдущая процедура самопроверки завершена
                    без ошибок или без самопроверки никогда 
                    был запущен.
Общее время для завершения в автономном режиме 
сбор данных: (32520) секунд.
Сбор данных в автономном режиме
Возможности: (0x7b) SMART выполнить в автономном режиме немедленно.
                    Включение/выключение автоматического сбора данных в автономном режиме.
                    Приостанавливать автономную коллекцию при появлении новых
                    команда.
                    Поддерживается автономное сканирование поверхности.
                    Поддерживается самотестирование.
                    Поддерживается самотестирование транспорта.
                    Поддерживается выборочное самотестирование.
Возможности SMART: (0x0003) Сохраняет данные SMART перед вводом
                    режим энергосбережения.
                    Поддерживает таймер автоматического сохранения SMART.
Возможность ведения журнала ошибок: (0x01) Поддерживается ведение журнала ошибок.
                    Поддерживается ведение журнала общего назначения.
Короткая процедура самопроверки 
рекомендуемое время опроса: ( 2) минут.
Расширенная программа самопроверки
рекомендуемое время опроса: ( 103) минут.
Процедура самопроверки транспортного средства
рекомендуемое время опроса: ( 2) минут.
Возможности SCT: (0x3035) поддерживается статус SCT.
                    Поддерживается управление функциями SCT.
                    Поддерживается таблица данных SCT.

Номер версии структуры данных атрибутов SMART: 16
Специфичные для поставщика атрибуты SMART с пороговыми значениями:
ID# ATTRIBUTE_NAME FLAG VALUE HORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x002f 200 200 051 До отказа Всегда - 0
  3 Spin_Up_Time 0x0027 184 170 021 До отказа Всегда — 1783
  4 Start_Stop_Count 0x0032 099 099 000 Old_age Всегда - 1573
  5 Reallocated_Sector_Ct 0x0033 200 200 140 До отказа Всегда - 0
  7 Seek_Error_Rate 0x002e 200 200 000 Old_age Всегда - 0
  9 Power_On_Hours 0x0032 083 083 000 Old_age Всегда - 13100
 10 Spin_Retry_Count 0x0032 100 100 000 Old_age Всегда - 0
 11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Всегда - 0
 12 Power_Cycle_Count 0x0032 099 099 000 Old_age Всегда - 1524
192 Power-Off_Retract_Count 0x0032 199 199 000 Old_age Всегда - 761
193 Load_Cycle_Count 0x0032 147 147 000 Old_age Всегда — 160779
194 Temperature_Celsius 0x0022 115 104 000 Old_age Всегда - 28
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Всегда - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Всегда - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Всегда - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Не в сети - 0

Версия журнала ошибок SMART: 1
Ошибки не зарегистрированы

Структура журнала самотестирования SMART, редакция 1
Num Test_Description Статус Оставшееся время жизни (часы) LBA_of_first_error
#1 Короткий офлайн Выполнено без ошибок 00% 13100 -
#2 Короткий оффлайн Выполнено без ошибок 00% 13099 -

Структура данных журнала выборочной самопроверки SMART, редакция 1
 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
    1 0 0 Не_тестирование
    2 0 0 Не_тестирование
    3 0 0 Не_тестирование
    4 0 0 Не_тестирование
    5 0 0 Не_тестирование
Флаги выборочной самопроверки (0x0):
  После сканирования выбранных диапазонов НЕ считывайте и не сканируйте оставшуюся часть диска.
Если при включении питания ожидается выборочная самопроверка, возобновите ее после 0-минутной задержки.

Однако одна странная вещь: длинные SMART-тесты, похоже, работают неправильно. Они переходят от прогресса 90% к завершению напрямую (без 80%, 70% и т. д.), а затем не отображаются в разделе «Журнал самопроверки SMART».

Я испытал задержки файловых операций в течение двух дней подряд. После перезагрузки проблема уходит, а потом возвращается. В частности, проблемы проявляются в виде длительных задержек при копировании или перемещении файлов, а также в зависании LibreOffice при сохранении файла. Любая идея, что может быть причиной таких ошибок?

ОС: Убунту 20.04

Процессор: Райзен 3

МБ: Gigabyte X570 UD

Рейтинг:2
флаг bd

Сообщения, которые вы цитируете, указывают на аппаратные проблемы в канале S-ATA. УМНАЯ. фокусируется на внутренней работе самого диска и не сообщает о подобных проблемах.

Возможные причины включают поврежденный или ненадежный кабель S-ATA, грязные или неправильно установленные разъемы или неисправный интерфейс на материнской плате или дисководе.

Действия по устранению неполадок:

  • отключите и снова подключите кабель S-ATA
  • осмотрите кабель S-ATA и разъемы на наличие повреждений или загрязнений
  • заменить кабель S-ATA
  • попробуйте другой порт S-ATA на материнской плате
  • попробуй другой жесткий диск
fi11222 avatar
флаг us
Большое спасибо. Есть ли способ получить более точную диагностику из сообщений об ошибках?
Tilman Schmidt avatar
флаг bd
Сообщения настолько точны, насколько это вообще возможно. Они точно сообщают вам, что произошло с точки зрения контролера. Чтобы получить более подробную информацию, вам придется провести физические измерения на проводах шины S-ATA, но это будет нерентабельно. Если описанные выше действия не помогли решить проблему, лучше всего обратиться к договору на обслуживание и запросить ремонт.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.