Сегодня на моем домашнем сервере произошла паника ядра, что-то пошло не так с его системным диском. Я поменял диск, восстановил сервер и теперь пытаюсь понять, что случилось со старым. Это на самом деле является довольно старый, поэтому я думаю, что это будет аппаратный сбой, но все же я хотел бы попытаться узнать что-нибудь о методах восстановления (и выяснить, почему SMART не предупредил меня). Теперь я вижу диск как /dev/sdb и могу обнаружить там lvm, поэтому я переименовал ubuntu-vg в ubuntu-vg-old и активировал его.
root@calcium:~# lvs
LV VG Attr LSize Pool Origin Data% Meta% Move Log Cpy%Sync Convert
ubuntu-lv ubuntu-vg -wi-ao---- <29.06g
резервные копии ubuntu-vg-old -wi-a----- 1.29t
ubuntu-lv ubuntu-vg-old-wi-a----- 200.00g
К сожалению, его монтирование не работает, и после длительного ожидания команда не делает диск недоступным:
root@calcium:~# mount /dev/ubuntu-vg-old/ubuntu-lv /mnt -o ro,user
mount: /mnt: невозможно прочитать суперблок на /dev/mapper/ubuntu--vg--old-ubuntu--lv.
root@calcium:~# pvscan
Ошибка чтения устройства /dev/sdb с длиной 0 512.
Ошибка чтения устройства /dev/sdb с длиной 0 4096.
Ошибка чтения устройства /dev/sdb1 при длине 0 4096.
Ошибка чтения устройства /dev/sdb2 с длиной 0 4096.
Ошибка чтения устройства /dev/sdb3 с длиной 0 4096.
PV /dev/sda3 VG ubuntu-vg lvm2 [58,12 ГиБ / 29,06 ГиБ бесплатно]
Всего: 1 [58,12 ГиБ] / используется: 1 [58,12 ГиБ] / без ВГ: 0 [0 ]
После перезагрузки (другого способа снова сделать его доступным я не нашел) диск возвращается. Я попытался это исправить:
root@calcium:~# fsck /dev/mapper/ubuntu--vg--old-ubuntu--lv
fsck из util-linux 2.36.1
e2fsck 1.46.3 (27 июля 2021 г.)
/dev/mapper/ubuntu--vg--old-ubuntu--lv: журнал восстановления
fsck.ext4: ошибка ввода/вывода при попытке повторно открыть /dev/mapper/ubuntu--vg--old-ubuntu--lv
/dev/mapper/ubuntu--vg--old-ubuntu--lv: ********** ВНИМАНИЕ: в файловой системе все еще есть ошибки **********
Но это ведет себя точно так же, как монтирование, длительный тайм-аут и диск отключается от системы. Я провел автономный тест поверхности SMART на ночь (smartctl -t в автономном режиме /dev/sdb
), он не обнаружил никаких проблем и не изменил никаких автономных атрибутов SMART. Тест чтения badblocks также работает хорошо, без ошибок:
root@calcium:~# badblocks -b 4096 -c 1024 -s -o bb.out /dev/sdb
Проверка на плохие блоки (тест только для чтения): выполнено
Поэтому я попробовал неразрушающий тест чтения-записи с бэдблоками (плохие блоки -b 4096 -c 1024 -s -n -v /dev/sdb
) и диск снова выпадает из системы примерно через полчаса работы. Я уже заменил кабель SATA и подключил диск к другому порту. Очевидно, что проблема возникает только тогда, когда пишу к определенному сектору (отраслям).
Есть ли что-нибудь еще, что я мог бы попробовать перед полным форматированием (что, скорее всего, тоже не удастся)?
Умные данные:
=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Результат теста SMART для самооценки общего состояния здоровья: ПРОЙДЕН
Номер версии структуры данных атрибутов SMART: 16
Специфичные для поставщика атрибуты SMART с пороговыми значениями:
ID# ATTRIBUTE_NAME FLAG VALUE HORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 100 100 051 До отказа Всегда — 414
2 Throughput_Performance 0x0026 055 051 000 Old_age Всегда — 18840
3 Spin_Up_Time 0x0023 077 066 025 Предотказ Всегда — 7179
4 Start_Stop_Count 0x0032 094 094 000 Old_age Всегда - 6274
5 Reallocated_Sector_Ct 0x0033 252 252 010 До отказа Всегда - 0
7 Seek_Error_Rate 0x002e 252 252 051 Old_age Всегда - 0
8 Seek_Time_Performance 0x0024 252 252 015 Old_age Offline - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Всегда — 31668
10 Spin_Retry_Count 0x0032 252 252 051 Old_age Всегда - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Всегда - 2
12 Power_Cycle_Count 0x0032 098 098 000 Old_age Всегда - 2286
181 Program_Fail_Cnt_Total 0x0022 100 100 000 Old_age Всегда — 19262840
191 G-Sense_Error_Rate 0x0022 099 099 000 Old_age Всегда — 11132
192 Power-Off_Retract_Count 0x0022 252 252 000 Old_age Всегда - 0
194 Temperature_Celsius 0x0002 064 044 000 Old_age Всегда - 35 (Мин/Макс 14/56)
195 Hardware_ECC_Recovered 0x003a 100 100 000 Old_age Всегда - 0
196 Reallocated_Event_Count 0x0032 252 252 000 Old_age Всегда - 0
197 Current_Pending_Sector 0x0032 087 083 000 Old_age Всегда - 1617
198 Offline_Uncorrectable 0x0030 252 084 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0036 200 200 000 Old_age Всегда - 0
200 Multi_Zone_Error_Rate 0x002a 100 100 000 Old_age Всегда - 235
223 Load_Retry_Count 0x0032 100 100 000 Old_age Всегда - 2
225 Load_Cycle_Count 0x0032 100 100 000 Old_age Всегда — 6320
Версия журнала ошибок SMART: 1
Ошибки не зарегистрированы
Структура журнала самотестирования SMART, редакция 1
Num Test_Description Статус Оставшееся время жизни (часы) LBA_of_first_error
#1 Короткий офлайн Выполнено без ошибок 00% 31656 -
#2 Короткий оффлайн Выполнено без ошибок 00% 31632 -
# 3 Короткий офлайн Завершено: ошибка чтения 10% 31608 2541336840
#4 Расширенный оффлайн Выполнено без ошибок 00% 31587 -
#5 Короткий оффлайн Выполнено без ошибок 00% 31560 -
#6 Короткий оффлайн Выполнено без ошибок 00% 31536 -
#7 Короткий оффлайн Выполнено без ошибок 00% 31512 -
#8 Короткий оффлайн Выполнено без ошибок 00% 31488 -
#9 Короткий оффлайн Выполнено без ошибок 00% 31464 -
#10 Короткий офлайн Выполнено без ошибок 00% 31440 -
#11 Расширенный оффлайн Выполнено без ошибок 00% 31419 -
#12 Короткий офлайн Выполнено без ошибок 00% 31392 -
#13 Короткий офлайн Выполнено без ошибок 00% 31368 -
#14 Короткий офлайн Выполнено без ошибок 00% 31344 -
#15 Короткий офлайн Выполнено без ошибок 00% 31320 -
#16 Короткий офлайн Выполнено без ошибок 00% 31296 -
#17 Короткий офлайн Выполнено без ошибок 00% 31272 -
#18 Расширенный оффлайн Выполнено без ошибок 00% 31251 -
#19 Короткий офлайн Выполнено без ошибок 00% 31224 -
#20 Короткий офлайн Выполнено без ошибок 00% 31200 -
#21 Короткий офлайн Выполнено без ошибок 00% 31176 -