Оба наших сервера страдают от
mdstat не соответствует несинхронизированным блокам cnt
Каждое начало месяца мы получаем эту ошибку, и мы должны восстановить рейд, используя
echo 'repair' >/sys/block/<md id>/md/sync_action
Эта проверка вызвана mdcheck_start.timer.service, если я не ошибаюсь.
Его ремонт занимает около 5 часов, после этого он восстанавливается сам, по крайней мере, я так думаю.
Вопрос, правильный ли это способ исправления несинхронизированных блоков рейда? Что вызывает это и как я могу определить, является ли это аппаратной/дисковой ошибкой?
Спасибо!
РЕДАКТИРОВАТЬ: /etc/fstab содержит:
# /etc/fstab: информация о статической файловой системе.
# / был в /dev/md2p1 во время установки curtin
/dev/disk/by-id/md-uuid-b0b68adb:353b70e8:fa806910:a78761e9-part1 / ext4 по умолчанию 0 0
# /vol/data был в /dev/md3p1 во время установки curtin
/dev/disk/by-id/md-uuid-2360fc63:991922f4:33aae17f:12f23590-part1 /vol/data ext4 по умолчанию 0 0
# /boot был на /dev/md0p1 во время установки curtin
/dev/disk/by-id/md-uuid-a76428ff:270597e7:70ed6c91:026d2441-part1 /boot ext4 по умолчанию 0 0
UUID="5c389b41-007d-4893-b81c-5560cb2d6ff9" /vol/backup ext4 по умолчанию 0 0
172.30.0.199:/vol/shared /vol/shared nfs по умолчанию 0 0
Вывод lsblk -- отбросить
:
НАЗВАНИЕ DISC-ALN DISC-GRAN DISC-MAX DISC-ZERO
петля0 0 4K 4G 0
петля1 0 4K 4G 0
петля2 0 4K 4G 0
петля3 0 4K 4G 0
петля4 0 4K 4G 0
петля5 0 4K 4G 0
петля6 0 4K 4G 0
петля7 0 4K 4G 0
петля8 0 4K 4G 0
сда 0 4K 2G 0
ââsda1 0 4K 2G 0
ââsda2 0 4K 2G 0
â ââmd0 0 4K 2G 0
â ââmd0p1 0 4K 2G 0
ââsda3 0 4K 2G 0
â ââmd1 0 4K 2G 0
â ââmd1p1 0 4K 2G 0
ââsda4 0 4K 2G 0
ââmd2 0 4K 2G 0
ââmd2p1 0 4K 2G 0
сдб 0 4K 2G 0
ââsdb1 0 4K 2G 0
ââsdb2 0 4K 2G 0
â ââmd0 0 4K 2G 0
â ââmd0p1 0 4K 2G 0
ââsdb3 0 4K 2G 0
â ââmd1 0 4K 2G 0
â ââmd1p1 0 4K 2G 0
ââsdb4 0 4K 2G 0
ââmd2 0 4K 2G 0
ââmd2p1 0 4K 2G 0
sdc 0 0B 0B 0
ââsdc1 0 0B 0B 0
nvme1n1 0 512B 2T 0
ââmd3 0 512B 2T 0
ââmd3p1 0 512B 2T 0
nvme0n1 0 512B 2T 0
ââmd3 0 512B 2T 0
ââmd3p1 0 512B 2T 0
Вывод smartctl -i /dev/sd[ab]
:
smartctl 7.1 30.12.2019 r5022 [x86_64-linux-5.4.0-92-generic] (локальная сборка)
Copyright (C) 2002-19, Брюс Аллен, Кристиан Франке, www.smartmontools.org
=== НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА ===
Семейство моделей: твердотельные накопители Intel серии S4510/S4610/S4500/S4600
Модель устройства: INTEL SSDSC2KG960G8
Серийный номер: BTYG024601ZC960CGN
LU WWN Идентификатор устройства: 5 5cd2e4 152b3fddf
Версия прошивки: XCV10120
Емкость пользователя: 960 197 124 096 байт [960 ГБ]
Размер сектора: 512 байт логический, 4096 байт физический
Скорость вращения: твердотельное устройство
Форм-фактор: 2,5 дюйма
Устройство находится: в базе данных smartctl [для получения подробной информации используйте: -P show]
Версия ATA: ACS-3 T13/2161-D, редакция 5
Версия SATA: SATA 3.2, 6,0 Гбит/с (текущая: 6,0 Гбит/с)
Местное время: ср 2 фев 07:43:15 2022 CET
Поддержка SMART: Доступна — устройство поддерживает SMART.
Поддержка SMART: включена
Вывод mdadm --detail /dev/md2
:
/dev/md2:
Версия : 1.2
Время создания: вторник, 24 ноября, 21:02:34 2020 г.
Уровень рейда: рейд1
Размер массива: 919731200 (877,12 ГиБ 941,80 ГБ)
Используемый размер разработки: 919731200 (877,12 ГБ 941,80 ГБ)
Рейдовые устройства: 2
Всего устройств: 2
Постоянство: суперблок постоянен
Растровое изображение намерения: внутреннее
Время обновления: среда, 2 февраля, 07:43:33 2022 г.
Состояние: активно
Активные устройства: 2
Рабочие устройства: 2
Неудачные устройства: 0
Запасные устройства : 0
Политика согласованности: растровое изображение
Имя: ubuntu-сервер: 2
UUID: b0b68adb:353b70e8:fa806910:a78761e9
События : 24281
Номер Основной Младший RaidDevice State
0 8 4 0 активная синхронизация /dev/sda4
1 8 20 1 активная синхронизация /dev/sdb4
Вывод smartctl -A -l ошибка /dev/sda
:
smartctl 7.1 30.12.2019 r5022 [x86_64-linux-5.4.0-92-generic] (локальная сборка)
Copyright (C) 2002-19, Брюс Аллен, Кристиан Франке, www.smartmontools.org
=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Номер версии структуры данных атрибутов SMART: 1
Специфичные для поставщика атрибуты SMART с пороговыми значениями:
ID# ATTRIBUTE_NAME FLAG VALUE HORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0032 100 100 000 Old_age Всегда - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Всегда — 10469
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Всегда - 8
170 Available_Reservd_Space 0x0033 100 100 010 До отказа Всегда — 0
171 Program_Fail_Count 0x0032 100 100 000 Old_age Всегда - 0
172 Erase_Fail_Count 0x0032 100 100 000 Old_age Всегда - 0
174 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Всегда — 7
175 Power_Loss_Cap_Test 0x0033 100 100 010 Перед отказом Всегда — 2591 (8 65535)
183 SATA_Downshift_Count 0x0032 100 100 000 Old_age Всегда — 0
184 End-to-End_Error_Count 0x0033 100 100 090 Предотказ Всегда - 0
187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Всегда - 0
190 Drive_Temperature 0x0022 079 075 000 Old_age Всегда — 21 (мин./макс. 12/27)
192 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Всегда - 7
194 Temperature_Celsius 0x0022 100 100 000 Old_age Всегда - 21
197 Pending_Sector_Count 0x0012 100 100 000 Old_age Всегда - 0
199 CRC_Error_Count 0x003e 100 100 000 Old_age Всегда - 0
225 Host_Writes_32MiB 0x0032 100 100 000 Old_age Всегда — 1006057
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Всегда — 419
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Всегда — 52
228 Workload_Minutes 0x0032 100 100 000 Old_age Всегда — 628023
232 Available_Reservd_Space 0x0033 100 100 010 До отказа Всегда — 0
233 Media_Wearout_Indicator 0x0032 100 100 000 Old_age Всегда - 0
234 Thermal_Throttle_Status 0x0032 100 100 000 Old_age Всегда - 0/0
235 Power_Loss_Cap_Test 0x0033 100 100 010 До отказа Всегда — 2591 (8 65535)
241 Host_Writes_32MiB 0x0032 100 100 000 Old_age Всегда — 1006057
242 Host_Reads_32MiB 0x0032 100 100 000 Old_age Всегда — 1112548
243 NAND_Writes_32MiB 0x0032 100 100 000 Old_age Всегда — 1730576
Версия журнала ошибок SMART: 1
Ошибки не зарегистрированы
Вывод smartctl -A -l ошибка /dev/sdb
:
smartctl 7.1 30.12.2019 r5022 [x86_64-linux-5.4.0-92-generic] (локальная сборка)
Copyright (C) 2002-19, Брюс Аллен, Кристиан Франке, www.smartmontools.org
=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Номер версии структуры данных атрибутов SMART: 1
Специфичные для поставщика атрибуты SMART с пороговыми значениями:
ID# ATTRIBUTE_NAME FLAG VALUE HORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0032 100 100 000 Old_age Всегда - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Всегда — 10469
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Всегда - 8
170 Available_Reservd_Space 0x0033 100 100 010 До отказа Всегда — 0
171 Program_Fail_Count 0x0032 100 100 000 Old_age Всегда - 0
172 Erase_Fail_Count 0x0032 100 100 000 Old_age Всегда - 0
174 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Всегда — 7
175 Power_Loss_Cap_Test 0x0033 100 100 010 До отказа Всегда — 2479 (8 65535)
183 SATA_Downshift_Count 0x0032 100 100 000 Old_age Всегда — 0
184 End-to-End_Error_Count 0x0033 100 100 090 Предотказ Всегда - 0
187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Всегда - 0
190 Drive_Temperature 0x0022 078 073 000 Old_age Всегда — 22 (мин./макс. 12/29)
192 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Всегда - 7
194 Temperature_Celsius 0x0022 100 100 000 Old_age Всегда - 22
197 Pending_Sector_Count 0x0012 100 100 000 Old_age Всегда - 0
199 CRC_Error_Count 0x003e 100 100 000 Old_age Всегда - 0
225 Host_Writes_32MiB 0x0032 100 100 000 Old_age Всегда — 1064411
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Всегда — 440
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Всегда — 45
228 Workload_Minutes 0x0032 100 100 000 Old_age Всегда - 628005
232 Available_Reservd_Space 0x0033 100 100 010 До отказа Всегда — 0
233 Media_Wearout_Indicator 0x0032 100 100 000 Old_age Всегда - 0
234 Thermal_Throttle_Status 0x0032 100 100 000 Old_age Всегда - 0/0
235 Power_Loss_Cap_Test 0x0033 100 100 010 До отказа Всегда — 2479 (8 65535)
241 Host_Writes_32MiB 0x0032 100 100 000 Old_age Всегда — 1064411
242 Host_Reads_32MiB 0x0032 100 100 000 Old_age Всегда — 876800
243 NAND_Writes_32MiB 0x0032 100 100 000 Old_age Всегда — 1801020
Версия журнала ошибок SMART: 1
Ошибки не зарегистрированы