Рейтинг:0

Если жесткий диск вызвал «ошибки шины», должны ли его атрибуты SMART показывать проблемы?

флаг ng
MWB

Машина время от времени показывает «Ошибки шины ATA» и должна быть перезагружена:

[24028.505239] ata1.00: исключение Emask 0x10 SAct 0x0 SErr 0x48d0002 действие 0xe заморожено
[24028.505249] ata1.00: irq_stat 0x08400040, фатальная ошибка интерфейса, статус подключения изменен
[24028.505254] ata1: SError: { RecovComm PHYRdyChg CommWake 10B8B LinkSeq DevExch}
[24028.505258] ata1.00: неудачная команда: FLUSH CACHE EXT
[24028.505266] ata1.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 тег 20
                        res 50/00:18:50:6b:d9/00:00:eb:00:00/40 Emask 0x10 (ошибка шины ATA)
[24028.505269] ata1.00: статус: {DRDY}
[24028.505276] ata1: ссылка на аппаратный сброс
[24032.757212] ata1: подключение SATA до 6,0 Гбит/с (SStatus 133 SControl 300)
[24032.757615] ata1.00: оба IDENTIFY прерваны, предполагая, что NODEV
[24032.757620] ata1.00: повторная проверка не удалась (errno=-2)

Если после перезагрузки я запускаю smartctl -t короткий /dev/sda, smartctl -H /dev/sda говорит прошло.

От smartctl -a /dev/sda:

Специфичные для поставщика атрибуты SMART с пороговыми значениями:
ID# ATTRIBUTE_NAME FLAG VALUE HORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000b 100 100 016 До отказа Всегда - 0
  2 Throughput_Performance 0x0005 136 136 054 До сбоя Автономный режим — 80
  3 Spin_Up_Time 0x0007 253 253 024 До сбоя Всегда — 176 (в среднем 237)
  4 Start_Stop_Count 0x0012 100 100 000 Old_age Всегда - 233
  5 Reallocated_Sector_Ct 0x0033 100 100 005 До отказа Всегда - 0
  7 Seek_Error_Rate 0x000b 100 100 067 До отказа Всегда - 0
  8 Seek_Time_Performance 0x0005 124 124 020 До сбоя Автономный режим — 33
  9 Power_On_Hours 0x0012 091 091 000 Old_age Всегда - 63994
 10 Spin_Retry_Count 0x0013 100 100 060 Предотказ Всегда - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Всегда - 204
192 Power-Off_Retract_Count 0x0032 098 098 000 Old_age Всегда — 2756
193 Load_Cycle_Count 0x0012 098 098 000 Old_age Всегда - 2756
194 Temperature_Celsius 0x0002 142 142 000 Old_age Всегда - 42 (Мин./Макс. 23/52)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Всегда - 0
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Всегда - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Всегда - 0

Версия журнала ошибок SMART: 1
Ошибки не зарегистрированы

Я знаю, что иногда (в 25% случаев) жесткие диски выходят из строя внезапно, причем никогда не сообщая о каких-либо проблемах в SMART. Но здесь я уже вижу ошибки. Тот факт, что SMART молчит, доказывает ли, что жесткий диск не является источником этих ошибок?

Аппаратное обеспечение: Материнская плата SuperMicro и жесткий диск HGST Deskstar NAS.

djdomi avatar
флаг za
имхо привод выйдет из строя в ближайшее время
MWB avatar
флаг ng
MWB
@djdomi Почему? Если ошибки исходят от самого диска, разве SMART не должен что-то сказать?
Рейтинг:2
флаг nc

Между жестким диском и операционной системой есть несколько компонентов, и любой из них может выйти из строя. Обычно ошибки, которые вы показываете, вызваны ошибками на жестком диске.

Однако отсутствие каких-либо зарегистрированных ошибок в SMART является вероятным признаком того, что сам жесткий диск исправен. Таким образом, у одного из других компонентов в цепочке может быть проблема.

Вот контрольный список, который может помочь:

  • Убедитесь, что диск правильно установлен и что все кабели полностью подключены к диску.
  • Если привод подключен к вертикальной плате, убедитесь, что все кабели на вертикальной плате надежно закреплены.
  • Убедитесь, что все задействованные кабели передачи данных находятся в хорошем состоянии, без зазубрин, перегибов, сильных скручиваний и растяжений.
  • Убедитесь, что кабели данных правильно подключены к материнской плате или контроллеру диска.
  • Если вы используете дополнительный дисковый контроллер, убедитесь, что он правильно установлен на материнской плате.
  • Если вы сомневаетесь, что что-то вставлено не полностью (при условии, что оно не привинчено и его трудно снять), может помочь переустановить его, удалив его, проверив гнездо на наличие пыли и вставив его обратно, убедившись, что оно полностью сидящий.

После того, как вы все это проверили и ошибка все еще возникает, необходимо будет провести дальнейшую диагностику, чтобы определить, какой из вышеперечисленных компонентов неисправен. Если возможно, поменяйте местами диски или поменяйте местами кабели между портами материнской платы или контроллера диска, что может помочь изолировать его еще больше. Контроллер диска с неисправным чипом также может вызывать подобные проблемы, но это можно диагностировать, только заменив его другим контроллером.

Это также может помочь запустить фактическую диагностику на диске (с smartctl -t короткий например, а затем дождитесь его завершения и проверьте с помощью смартктл -а чтобы увидеть, выполнено ли это или есть ли ошибки), просто чтобы убедиться, что это действительно не диск.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.