Рейтинг:0

mdstat не соответствует несинхронизированным блокам cnt

флаг us

Оба наших сервера страдают от

mdstat не соответствует несинхронизированным блокам cnt

Каждое начало месяца мы получаем эту ошибку, и мы должны восстановить рейд, используя

echo 'repair' >/sys/block/<md id>/md/sync_action

Эта проверка вызвана mdcheck_start.timer.service, если я не ошибаюсь.
Его ремонт занимает около 5 часов, после этого он восстанавливается сам, по крайней мере, я так думаю.

Вопрос, правильный ли это способ исправления несинхронизированных блоков рейда? Что вызывает это и как я могу определить, является ли это аппаратной/дисковой ошибкой? Спасибо!

РЕДАКТИРОВАТЬ: /etc/fstab содержит:

# /etc/fstab: информация о статической файловой системе.

# / был в /dev/md2p1 во время установки curtin
/dev/disk/by-id/md-uuid-b0b68adb:353b70e8:fa806910:a78761e9-part1 / ext4 по умолчанию 0 0

# /vol/data был в /dev/md3p1 во время установки curtin
/dev/disk/by-id/md-uuid-2360fc63:991922f4:33aae17f:12f23590-part1 /vol/data ext4 по умолчанию 0 0

# /boot был на /dev/md0p1 во время установки curtin
/dev/disk/by-id/md-uuid-a76428ff:270597e7:70ed6c91:026d2441-part1 /boot ext4 по умолчанию 0 0

UUID="5c389b41-007d-4893-b81c-5560cb2d6ff9" /vol/backup ext4 по умолчанию 0 0

172.30.0.199:/vol/shared /vol/shared nfs по умолчанию 0 0

Вывод lsblk -- отбросить:

НАЗВАНИЕ DISC-ALN DISC-GRAN DISC-MAX DISC-ZERO
петля0 0 4K 4G 0
петля1 0 4K 4G 0
петля2 0 4K 4G 0
петля3 0 4K 4G 0
петля4 0 4K 4G 0
петля5 0 4K 4G 0
петля6 0 4K 4G 0
петля7 0 4K 4G 0
петля8 0 4K 4G 0
сда 0 4K 2G 0
ââsda1 0 4K 2G 0
ââsda2 0 4K 2G 0
â ââmd0 0 4K 2G 0
â ââmd0p1 0 4K 2G 0
ââsda3 0 4K 2G 0
â ââmd1 0 4K 2G 0
â ââmd1p1 0 4K 2G 0
ââsda4 0 4K 2G 0
  ââmd2 0 4K 2G 0
    ââmd2p1 0 4K 2G 0
сдб 0 4K 2G 0
ââsdb1 0 4K 2G 0
ââsdb2 0 4K 2G 0
â ââmd0 0 4K 2G 0
â ââmd0p1 0 4K 2G 0
ââsdb3 0 4K 2G 0
â ââmd1 0 4K 2G 0
â ââmd1p1 0 4K 2G 0
ââsdb4 0 4K 2G 0
  ââmd2 0 4K 2G 0
    ââmd2p1 0 4K 2G 0
sdc 0 0B 0B 0
ââsdc1 0 0B 0B 0
nvme1n1 0 512B 2T 0
ââmd3 0 512B 2T 0
  ââmd3p1 0 512B 2T 0
nvme0n1 0 512B 2T 0
ââmd3 0 512B 2T 0
  ââmd3p1 0 512B 2T 0

Вывод smartctl -i /dev/sd[ab]:

smartctl 7.1 30.12.2019 r5022 [x86_64-linux-5.4.0-92-generic] (локальная сборка)
Copyright (C) 2002-19, Брюс Аллен, Кристиан Франке, www.smartmontools.org

=== НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА ===
Семейство моделей: твердотельные накопители Intel серии S4510/S4610/S4500/S4600
Модель устройства: INTEL SSDSC2KG960G8
Серийный номер: BTYG024601ZC960CGN
LU WWN Идентификатор устройства: 5 5cd2e4 152b3fddf
Версия прошивки: XCV10120
Емкость пользователя: 960 197 124 096 байт [960 ГБ]
Размер сектора: 512 байт логический, 4096 байт физический
Скорость вращения: твердотельное устройство
Форм-фактор: 2,5 дюйма
Устройство находится: в базе данных smartctl [для получения подробной информации используйте: -P show]
Версия ATA: ACS-3 T13/2161-D, редакция 5
Версия SATA: SATA 3.2, 6,0 Гбит/с (текущая: 6,0 Гбит/с)
Местное время: ср 2 фев 07:43:15 2022 CET
Поддержка SMART: Доступна — устройство поддерживает SMART.
Поддержка SMART: включена

Вывод mdadm --detail /dev/md2:

/dev/md2:
           Версия : 1.2
     Время создания: вторник, 24 ноября, 21:02:34 2020 г.
        Уровень рейда: рейд1
        Размер массива: 919731200 (877,12 ГиБ 941,80 ГБ)
     Используемый размер разработки: 919731200 (877,12 ГБ 941,80 ГБ)
      Рейдовые устройства: 2
     Всего устройств: 2
       Постоянство: суперблок постоянен

     Растровое изображение намерения: внутреннее

       Время обновления: среда, 2 февраля, 07:43:33 2022 г.
             Состояние: активно
    Активные устройства: 2
   Рабочие устройства: 2
    Неудачные устройства: 0
     Запасные устройства : 0

Политика согласованности: растровое изображение

              Имя: ubuntu-сервер: 2
              UUID: b0b68adb:353b70e8:fa806910:a78761e9
            События : 24281

    Номер Основной Младший RaidDevice State
       0 8 4 0 активная синхронизация /dev/sda4
       1 8 20 1 активная синхронизация /dev/sdb4

Вывод smartctl -A -l ошибка /dev/sda:

smartctl 7.1 30.12.2019 r5022 [x86_64-linux-5.4.0-92-generic] (локальная сборка)
Copyright (C) 2002-19, Брюс Аллен, Кристиан Франке, www.smartmontools.org

=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Номер версии структуры данных атрибутов SMART: 1
Специфичные для поставщика атрибуты SMART с пороговыми значениями:
ID# ATTRIBUTE_NAME FLAG VALUE HORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct 0x0032 100 100 000 Old_age Всегда - 0
  9 Power_On_Hours 0x0032 100 100 000 Old_age Всегда — 10469
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Всегда - 8
170 Available_Reservd_Space 0x0033 100 100 010 До отказа Всегда — 0
171 Program_Fail_Count 0x0032 100 100 000 Old_age Всегда - 0
172 Erase_Fail_Count 0x0032 100 100 000 Old_age Всегда - 0
174 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Всегда — 7
175 Power_Loss_Cap_Test 0x0033 100 100 010 Перед отказом Всегда — 2591 (8 65535)
183 SATA_Downshift_Count 0x0032 100 100 000 Old_age Всегда — 0
184 End-to-End_Error_Count 0x0033 100 100 090 Предотказ Всегда - 0
187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Всегда - 0
190 Drive_Temperature 0x0022 079 075 000 Old_age Всегда — 21 (мин./макс. 12/27)
192 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Всегда - 7
194 Temperature_Celsius 0x0022 100 100 000 Old_age Всегда - 21
197 Pending_Sector_Count 0x0012 100 100 000 Old_age Всегда - 0
199 CRC_Error_Count 0x003e 100 100 000 Old_age Всегда - 0
225 Host_Writes_32MiB 0x0032 100 100 000 Old_age Всегда — 1006057
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Всегда — 419
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Всегда — 52
228 Workload_Minutes 0x0032 100 100 000 Old_age Всегда — 628023
232 Available_Reservd_Space 0x0033 100 100 010 До отказа Всегда — 0
233 Media_Wearout_Indicator 0x0032 100 100 000 Old_age Всегда - 0
234 Thermal_Throttle_Status 0x0032 100 100 000 Old_age Всегда - 0/0
235 Power_Loss_Cap_Test 0x0033 100 100 010 До отказа Всегда — 2591 (8 65535)
241 Host_Writes_32MiB 0x0032 100 100 000 Old_age Всегда — 1006057
242 Host_Reads_32MiB 0x0032 100 100 000 Old_age Всегда — 1112548
243 NAND_Writes_32MiB 0x0032 100 100 000 Old_age Всегда — 1730576

Версия журнала ошибок SMART: 1
Ошибки не зарегистрированы

Вывод smartctl -A -l ошибка /dev/sdb:

smartctl 7.1 30.12.2019 r5022 [x86_64-linux-5.4.0-92-generic] (локальная сборка)
Copyright (C) 2002-19, Брюс Аллен, Кристиан Франке, www.smartmontools.org

=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Номер версии структуры данных атрибутов SMART: 1
Специфичные для поставщика атрибуты SMART с пороговыми значениями:
ID# ATTRIBUTE_NAME FLAG VALUE HORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct 0x0032 100 100 000 Old_age Всегда - 0
  9 Power_On_Hours 0x0032 100 100 000 Old_age Всегда — 10469
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Всегда - 8
170 Available_Reservd_Space 0x0033 100 100 010 До отказа Всегда — 0
171 Program_Fail_Count 0x0032 100 100 000 Old_age Всегда - 0
172 Erase_Fail_Count 0x0032 100 100 000 Old_age Всегда - 0
174 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Всегда — 7
175 Power_Loss_Cap_Test 0x0033 100 100 010 До отказа Всегда — 2479 (8 65535)
183 SATA_Downshift_Count 0x0032 100 100 000 Old_age Всегда — 0
184 End-to-End_Error_Count 0x0033 100 100 090 Предотказ Всегда - 0
187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Всегда - 0
190 Drive_Temperature 0x0022 078 073 000 Old_age Всегда — 22 (мин./макс. 12/29)
192 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Всегда - 7
194 Temperature_Celsius 0x0022 100 100 000 Old_age Всегда - 22
197 Pending_Sector_Count 0x0012 100 100 000 Old_age Всегда - 0
199 CRC_Error_Count 0x003e 100 100 000 Old_age Всегда - 0
225 Host_Writes_32MiB 0x0032 100 100 000 Old_age Всегда — 1064411
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Всегда — 440
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Всегда — 45
228 Workload_Minutes 0x0032 100 100 000 Old_age Всегда - 628005
232 Available_Reservd_Space 0x0033 100 100 010 До отказа Всегда — 0
233 Media_Wearout_Indicator 0x0032 100 100 000 Old_age Всегда - 0
234 Thermal_Throttle_Status 0x0032 100 100 000 Old_age Всегда - 0/0
235 Power_Loss_Cap_Test 0x0033 100 100 010 До отказа Всегда — 2479 (8 65535)
241 Host_Writes_32MiB 0x0032 100 100 000 Old_age Всегда — 1064411
242 Host_Reads_32MiB 0x0032 100 100 000 Old_age Всегда — 876800
243 NAND_Writes_32MiB 0x0032 100 100 000 Old_age Всегда — 1801020

Версия журнала ошибок SMART: 1
Ошибки не зарегистрированы
David Pivoňka avatar
флаг us
Версия ядра @anx 5.4.0-92-универсальная. Я не уверен, что файловая система использует функцию сброса, как я могу узнать? Ничего подобного мы не устанавливали при установке. РЕДАКТИРОВАТЬ: добавлено содержимое /etc/fstab для публикации.
Nikita Kipriyanov avatar
флаг za
показать `lsblk --discard`
David Pivoňka avatar
флаг us
@NikitaKipriyanov добавлен в основной пост
Nikita Kipriyanov avatar
флаг za
так какой из них показывает это поведение?
David Pivoňka avatar
флаг us
Мы восстанавливаем его с помощью `echo 'repair' >/sys/block/md2/md/sync_action`. Так что это должно быть `md2 : active raid1 sdb4[1] sda4[0]` согласно `cat /proc/mdstat`
Nikita Kipriyanov avatar
флаг za
К сожалению, эти индексы MD не стабильны. Они могут переключаться после перезагрузки. Все-таки md2 сейчас на sda и sdb - что это за устройства? Пожалуйста, покажите им `smartctl`. Также покажите `mdadm --detail /dev/md2`.
David Pivoňka avatar
флаг us
Добавлен.Я также должен упомянуть, что у нас есть дополнительный сервер, который идентичен этому, и проблема возникает и там.
Nikita Kipriyanov avatar
флаг za
Приятно видеть информацию о SSD. Но вы выложили два одинаковых вывода, отличаются только серийником. Достаточно сохранить только один экземпляр. Я хотел увидеть атрибуты и журнал ошибок, `smartctl -A -l error /dev/sd[ab]`. // Я боюсь, что MD RAID — не лучшая технология для использования на этих твердотельных накопителях. Это тот случай, когда файловая система со встроенным управлением томами может быть более подходящей, например, zfs или btrfs.
David Pivoňka avatar
флаг us
Добавлен вывод ошибки smartctl. Итак, вы говорите, что может помочь замена MD RAID каким-то аппаратным рейдом?
Nikita Kipriyanov avatar
флаг za
Я буквально сказал, что может быть лучше заменить RAID на уровне блоков на RAID на уровне файловой системы. Я ожидаю, что HW RAID покажет похожие или даже более странные симптомы. // Мы столкнулись с подобной проблемой сегодня с аналогичными твердотельными накопителями серии S4610. Так что теперь у меня даже есть проблема, как у вас. Но в моем случае есть Windows, в которой нет таких файловых систем. так что изучаем.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.