Массив RAID говорит «критическая ошибка среды», но smartctl говорит, что диск исправен — что делать дальше?

Question

Рейтинг:2

Ubuntu

Массив RAID говорит «критическая ошибка среды», но smartctl говорит, что диск исправен — что делать дальше?

DanB

30.04.2023, 19:18

У меня есть массив SSD-накопителей RAID-1 (Samsung 970 EVO Plus), и в /var/журнал/системный журнал, но смартктл сообщает, что диск исправен. Я сделал кучу диагностики (ниже), и мне интересно, могу ли я что-нибудь еще сделать. Возникла проблема или нет, и если да, то как лучше поступить? (На Кубунту 18.04.6 LTS.)

Вот массив:

$ кошка /proc/mdstat
md1 : активный рейд1 nvme0n1p3[0] nvme1n1p3[2]
      1919724608 блоки супер 1.2 [2/2] [UU]
      растровое изображение: 5/15 страниц [20 КБ], фрагмент 65536 КБ

Выглядит здоровым, судя по мдадм:

$ sudo mdadm --detail /dev/md1
/dev/md1:
           Версия : 1.2
     Время создания : Сб 29 февраля 12:33:09 2020
        Уровень рейда: рейд1
        Размер массива: 1919724608 (1830,79 ГиБ 1965,80 ГБ)
     Используемый размер разработки: 1919724608 (1830,79 ГиБ 1965,80 ГБ)
      Рейдовые устройства: 2
     Всего устройств: 2
       Постоянство: суперблок постоянен

     Растровое изображение намерения: внутреннее

       Время обновления: пятница, 31 декабря, 14:04:55 2021 г.
             Состояние: чистое 
    Активные устройства: 2
   Рабочие устройства: 2
    Неудачные устройства: 0
     Запасные устройства : 0

Политика согласованности: растровое изображение

              Имя: Кубунту: 1
              UUID: 7c84adca:31e96bad:b1be03ae:d7d0349d
            События : 41087

    Номер Основной Младший RaidDevice State
       0 259 3 0 активная синхронизация /dev/nvme0n1p3
       2 259 7 1 активная синхронизация /dev/nvme1n1p3

Однако некоторые ошибки чтения начали появляться в /var/журнал/системный журнал, в тройках:

31 декабря, 12:32:56.
31 декабря 12:32:56 ядро: [662973.969222] md/raid1:md1: nvme1n1p3: перепланирование сектора 2702369024
31 декабря 12:32:56 ядро: [662973.978792] md/raid1:md1: перенаправление сектора 2702369024 на другое зеркало: nvme0n1p3

31 декабря, 12:43:11.
31 декабря 12:43:11 ядро: [663588.474943] md/raid1:md1: nvme0n1p3: перепланирование сектора 1747863296
31 декабря 12:43:11 ядро: [663588.499466] md/raid1:md1: перенаправление сектора 1747863296 на другое зеркало: nvme0n1p3

иногда следует:

ядро: [313519.337578] md/raid1:md1: исправлена ошибка чтения (8 секторов по адресу 1367197592 на nvme1n1p3)

я побежал смартктл искать проблемы. Это указывает на то, что ошибки произошли в прошлом, но также говорит "Результат теста на самооценку общего состояния здоровья SMART: ПРОШЕЛ."

Для /dev/nvme0n1:

$ sudo smartctl -a /dev/nvme0n1
smartctl 6.6 31 мая 2016 г. r4324 [x86_64-linux-5.4.0-91-generic] (локальная сборка)
Copyright (C) 2002-16, Брюс Аллен, Кристиан Франке, www.smartmontools.org

=== НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА ===
Номер модели: Samsung SSD 970 EVO 2 ТБ
Серийный номер: S464NB0M406242D
Версия прошивки: 2B2QEXE7
Идентификатор поставщика/подсистемы PCI: 0x144d
Идентификатор IEEE OUI: 0x002538
Общая емкость NVM: 2 000 398 934 016 [2,00 ТБ]
Нераспределенная емкость NVM: 0
Идентификатор контроллера: 4
Количество пространств имен: 1
Размер/емкость пространства имен 1: 2 000 398 934 016 [2,00 ТБ]
Использование пространства имен 1: 1 017 558 851 584 [1,01 ТБ]
Пространство имен 1 Размер LBA в формате: 512
Местное время: пятница, 31 декабря, 14:01:33 2021 EST.
Обновления прошивки (0x16): 3 слота, сброс не требуется
Дополнительные команды администратора (0x0017): Формат безопасности Frmw_DL *Другое*
Дополнительные команды NVM (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat *Другое*
Максимальный размер передаваемых данных: 512 страниц
Предупреждение комп. Темп. Порог: 82 по Цельсию
Критический комп. Темп. Порог: 82 по Цельсию

Поддерживаемые состояния питания
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
 0 + 6,20 Вт - - 0 0 0 0 0 0
 1 + 4,30 Вт - - 1 1 1 1 0 0
 2 + 2,10 Вт - - 2 2 2 2 0 0
 3 - 0,0400 Вт - - 3 3 3 3 210 1200
 4 - 0,0050 Вт - - 4 4 4 4 2000 8000

Поддерживаемые размеры LBA (NSID 0x1)
Id FMT Data Metadt Rel_Perf
 0 + 512 0 0

=== НАЧАЛО РАЗДЕЛА SMART DATA ===
Результат теста на самооценку общего состояния здоровья SMART: ПРОШЕЛ

Информация SMART/Health (журнал NVMe 0x02, NSID 0x1)
Критическое предупреждение: 0x00
Температура: 46 по Цельсию
Доступные запасные части: 73%
Доступный запасной порог: 10%
Процент использования: 0%
Прочитано единиц данных: 232 548 547 [119 ТБ]
Записано единиц данных: 58 761 625 [30,0 ТБ]
Команды чтения хоста: 1 144 416 417
Команд записи хоста: 1 551 430 546
Время занятости контроллера: 7250
Силовые циклы: 114
Время работы: 6365 часов
Небезопасные отключения: 73
Ошибки целостности носителей и данных: 694
Записи в журнале информации об ошибках: 926
Предупреждение комп. Температурное время: 0
Критический комп. Температурное время: 0
Датчик температуры 1: 46 по Цельсию
Датчик температуры 2: 50 по Цельсию

Информация об ошибке (журнал NVMe 0x01, макс. 64 записи)
Num ErrCount SQId CmdId Статус PELoc LBA NSID VS
  0 926 28 0x0370 0xc502 0x000 3738332404 1 -
  1 925 6 0x015b 0xc502 0x000 2503721366 1 -
  2 924 22 0x0000 0xc502 0x000 1963251598 1 -
  3 923 11 0x038a 0xc502 0x000 1862557082 1 -
  4 922 16 0x00d1 0xc502 0x000 1862557082 1 -
  5 921 6 0x0141 0xc502 0x000 1826459600 1 -
  6 920 20 0x03b5 0xc502 0x000 1815443442 1 -
  7 919 8 0x034d 0xc502 0x000 2588273810 1 -
  8 918 11 0x0315 0xc502 0x000 2583041964 1 -
  9 917 9 0x02e3 0xc502 0x000 2583041964 1 -
 10 916 11 0x030e 0xc502 0x000 2583023500 1 -
 11 915 11 0x0308 0xc502 0x000 2583023468 1 -
 12 914 11 0x033a 0xc502 0x000 2583023500 1 -
 13 913 9 0x02ec 0xc502 0x000 2583023468 1 -
 14 912 14 0x03d2 0xc502 0x000 2472005420 1 -
 15 911 23 0x00cd 0xc502 0x000 2444721868 1 -
... (32 записи не показаны)

/dev/nvme1n1:

$ sudo smartctl -a /dev/nvme1n1
smartctl 6.6 31 мая 2016 г. r4324 [x86_64-linux-5.4.0-91-generic] (локальная сборка)
Copyright (C) 2002-16, Брюс Аллен, Кристиан Франке, www.smartmontools.org

=== НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА ===
Номер модели: Samsung SSD 970 EVO 2 ТБ
Серийный номер: S464NB0M403333H
Версия прошивки: 2B2QEXE7
Идентификатор поставщика/подсистемы PCI: 0x144d
Идентификатор IEEE OUI: 0x002538
Общая емкость NVM: 2 000 398 934 016 [2,00 ТБ]
Нераспределенная емкость NVM: 0
Идентификатор контроллера: 4
Количество пространств имен: 1
Размер/емкость пространства имен 1: 2 000 398 934 016 [2,00 ТБ]
Использование пространства имен 1: 1 044 938 612 736 [1,04 ТБ]
Пространство имен 1 Размер LBA в формате: 512
Местное время: пятница, 31 декабря, 14:03:07 2021 EST.
Обновления прошивки (0x16): 3 слота, сброс не требуется
Дополнительные команды администратора (0x0017): Формат безопасности Frmw_DL *Другое*
Дополнительные команды NVM (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat *Другое*
Максимальный размер передаваемых данных: 512 страниц
Предупреждение комп. Темп. Порог: 82 по Цельсию
Критический комп. Темп. Порог: 82 по Цельсию

Поддерживаемые состояния питания
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
 0 + 6,20 Вт - - 0 0 0 0 0 0
 1 + 4,30 Вт - - 1 1 1 1 0 0
 2 + 2,10 Вт - - 2 2 2 2 0 0
 3 - 0,0400 Вт - - 3 3 3 3 210 1200
 4 - 0,0050 Вт - - 4 4 4 4 2000 8000

Поддерживаемые размеры LBA (NSID 0x1)
Id FMT Data Metadt Rel_Perf
 0 + 512 0 0

=== НАЧАЛО РАЗДЕЛА SMART DATA ===
Результат теста на самооценку общего состояния здоровья SMART: ПРОШЕЛ

Информация SMART/Health (журнал NVMe 0x02, NSID 0x1)
Критическое предупреждение: 0x00
Температура: 45 по Цельсию
Доступные запасные части: 81%
Доступный запасной порог: 10%
Процент использования: 1%
Прочитанные единицы данных: 180 057 901 [92,1 ТБ]
Записано единиц данных: 77 700 415 [39,7 ТБ]
Команды чтения хоста: 801 630 346
Команд записи хоста: 1 566 190 001
Время занятости контроллера: 6925
Силовые циклы: 156
Время работы: 6260 часов
Небезопасные отключения: 86
Ошибки целостности носителей и данных: 721
Записи в журнале информации об ошибках: 1015
Предупреждение комп. Температурное время: 0
Критический комп. Температурное время: 0
Датчик температуры 1: 45 по Цельсию
Датчик температуры 2: 52 по Цельсию

Информация об ошибке (журнал NVMe 0x01, макс. 64 записи)
Num ErrCount SQId CmdId Статус PELoc LBA NSID VS
  0 1015 22 0x0178 0xc502 0x000 2395920012 1 -
  1 1014 31 0x02d6 0xc502 0x000 2065018576 1 -
  2 1013 10 0x004e 0xc502 0x000 1928508102 1 -
  3 1012 6 0x02aa 0xc502 0x000 2769949126 1 -
  4 1011 27 0x0204 0xc502 0x000 2180665946 1 -
  5 1010 27 0x023b 0xc502 0x000 2180598396 1 -
  6 1009 14 0x00ee 0xc502 0x000 2562333810 1 -
  7 1008 13 0x0075 0xc502 0x000 2423243572 1 -
  8 1007 30 0x03bb 0xc502 0x000 2326927278 1 -
  9 1006 24 0x03e6 0xc502 0x000 1775468746 1 -
 10 1005 16 0x0066 0xc502 0x000 1775468746 1 -
 11 1004 23 0x0148 0xc502 0x000 2813092280 1 -
 12 1003 26 0x02fa 0xc502 0x000 2452856518 1 -
 13 1002 5 0x03b1 0xc502 0x000 2119789206 1 -
 14 1001 27 0x009b 0xc502 0x000 3047371772 1 -
 15 1000 5 0x036c 0xc502 0x000 3047371772 1 -
... (5 записей не показаны)

Два диска не поддерживают самотестирование (смартктл -с вообще не перечисляет никаких самопроверок).

$ sudo smartctl -c /dev/nvme0n1
smartctl 6.6 31 мая 2016 г. r4324 [x86_64-linux-5.4.0-91-generic] (локальная сборка)
Copyright (C) 2002-16, Брюс Аллен, Кристиан Франке, www.smartmontools.org

=== НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА ===
Обновления прошивки (0x16): 3 слота, сброс не требуется
Дополнительные команды администратора (0x0017): Формат безопасности Frmw_DL *Другое*
Дополнительные команды NVM (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat *Другое*
Максимальный размер передаваемых данных: 512 страниц
Предупреждение комп. Темп.Порог: 82 по Цельсию
Критический комп. Темп. Порог: 82 по Цельсию

Поддерживаемые состояния питания
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
 0 + 6,20 Вт - - 0 0 0 0 0 0
 1 + 4,30 Вт - - 1 1 1 1 0 0
 2 + 2,10 Вт - - 2 2 2 2 0 0
 3 - 0,0400 Вт - - 3 3 3 3 210 1200
 4 - 0,0050 Вт - - 4 4 4 4 2000 8000

Поддерживаемые размеры LBA (NSID 0x1)
Id FMT Data Metadt Rel_Perf
 0 + 512 0 0

Обновление моего вопроса:

Некоторые ошибки, по-видимому, связаны с скрипт контрольного массива который запускается раз в месяц, потому что ошибки начинаются «в первое воскресенье каждого месяца, в 01:06 утра». «Ман МД» добавляет:

[На] RAID1 проблемы с программным обеспечением могут вызвать сообщение о несоответствии [между двумя дисками]. Это не обязательно означает, что данные в массиве повреждены. Возможно, системе просто все равно, что хранится в этой части массива — это неиспользуемое пространство. Наиболее вероятная причина неожиданного несоответствия на RAID1 или RAID10 возникает, если в массиве хранится раздел подкачки или файл подкачки.

Что я должен делать дальше? Большое тебе спасибо.

215

0 + 0

рейд

мдадм

жесткий диск

умная

18.04

Answer 1

0

Ответить

Answer 2

0

Ответить

Answer 3

1

Ответить

Answer 4

0

Ответить

Answer 5

1

Ответить

Answer 6

0

Ответить

Answer 7

0

Ответить

Answer 8

0

Ответить

Массив RAID говорит «критическая ошибка среды», но smartctl говорит, что диск исправен — что делать дальше?

Ответить или комментировать