Невозможно смонтировать файловую систему XFS из массива Linux RAID6 («Несовместимый журнал»)

Question

Рейтинг:14

Server

Невозможно смонтировать файловую систему XFS из массива Linux RAID6 («Несовместимый журнал»)

Bob

22.09.2023, 05:03

Плакат в первый раз - мои извинения, если я не понимаю этикет правильно.

У меня есть массив RAID6 размером ~ 200 ТБ с 30 дисками, и я не могу его смонтировать - я просто получаю сообщение:

смонтировать /dev/md125 /экспорт/модели
mount:/dev/md125: невозможно прочитать суперблок

Если я побегу мдадм --деталь на нем он отображается как чистый:

/dev/md125:
           Версия : 1.2
     Время создания: ср 13 сентября 15:09:40 2017
        Уровень рейда: рейд 6.
        Размер массива: 218789036032 (203,76 ТиБ 224,04 ТБ)
     Используемый размер разработки: 7813894144 (7,28 ТиБ, 8,00 ТБ)
      Рейдовые устройства: 30
     Всего устройств: 30
       Постоянство: суперблок постоянен

     Растровое изображение намерения: внутреннее

       Время обновления: пятница, 20 мая, 23:54:52 2022 г.
             Состояние: чистое
    Активные устройства: 30
   Рабочие устройства: 30
    Неудачные устройства: 0
     Запасные устройства : 0

            Макет: левосимметричный
        Размер блока: 512 КБ

Политика согласованности: растровое изображение

              Имя: localhost.localdomain:SW-RAID6
              UUID: f9b65f55:5f257add:1140ccc0:46ca6c19
            События : 1152436

    Номер Основной Младший RaidDevice State
       0 8 1 0 активная синхронизация /dev/sda1
       1 65 161 1 активная синхронизация /dev/sdaa1
       2 65 177 2 активная синхронизация /dev/sdab1
       3 65 193 3 активная синхронизация /dev/sdac1
       4 65 209 4 активная синхронизация /dev/sdad1
       5 8 17 5 активная синхронизация /dev/sdb1
       6 8 33 6 активная синхронизация /dev/sdc1
       7 8 49 7 активная синхронизация /dev/sdd1
       8 8 65 8 активная синхронизация /dev/sde1
       9 8 81 9 активная синхронизация /dev/sdf1
      10 8 97 10 активная синхронизация /dev/sdg1
      11 8 113 11 активная синхронизация /dev/sdh1
      12 8 129 12 активная синхронизация /dev/sdi1
      13 8 145 13 активная синхронизация /dev/sdj1
      14 8 161 14 активная синхронизация /dev/sdk1
      15 8 177 15 активная синхронизация /dev/sdl1
      16 8 193 16 активная синхронизация /dev/sdm1
      17 8 209 17 активная синхронизация /dev/sdn1
      18 8 225 18 активная синхронизация /dev/sdo1
      19 8 241 19 активная синхронизация /dev/sdp1
      20 65 1 20 активная синхронизация /dev/sdq1
      21 65 17 21 активная синхронизация /dev/sdr1
      22 65 33 22 активная синхронизация /dev/sds1
      23 65 49 23 активная синхронизация /dev/sdt1
      24 65 65 24 активная синхронизация /dev/sdu1
      25 65 81 25 активная синхронизация /dev/sdv1
      26 65 97 26 активная синхронизация /dev/sdw1
      27 65 113 27 активная синхронизация /dev/sdx1
      28 65 129 28 активная синхронизация /dev/sdy1
      29 65 145 29 активная синхронизация /dev/sdz1

кошка /прок/статистика показывает:

[root@knox ~]# кошка /proc/mdstat
Личности: [raid1] [raid6] [raid5] [raid4]
md125 : активный raid6 sdo1[18] sdh1[11] sdad1[4] sdd1[7] sdb1[5] sdi1[12] sdt1[23] sdr1[21] sdp1[19] sdx1[27] sdg1[10] sdn1[ 17] sdm1[16] sdab1[2] sdu1[24] sdl1[15] sde1[8] sdf1[9] sdw1[26] sdc1[6] sdq1[20] sdy1[28] sds1[22] sdv1[25] sdac1[3] sdz1[29] sdaa1[1] sda1[0] sdj1[13] sdk1[14]
      218789036032 блоков super 1.2 level 6, чанк 512k, алгоритм 2 [30/30] [UUUUUUUUUUUUUUUUUUUUUUUUUUUUUU]
      растровое изображение: 0/59 страниц [0 КБ], фрагмент 65536 КБ

md126 : активный рейд1 sdae3[0] sdaf2[1]
      976832 блока супер 1.0 [2/2] [UU]
      растровое изображение: 0/1 страницы [0 КБ], фрагмент 65536 КБ

md127 : активный рейд1 sdaf1[1] sdae1[0]
      100554752 блока супер 1.2 [2/2] [UU]
      растровое изображение: 1/1 страницы [4 КБ], фрагмент 65536 КБ

неиспользуемые устройства: <нет>

Исследовать на отдельных устройствах также отображается как исправный (я не включил результаты для них всех, потому что это заняло бы слишком много места, но они все такие же, как этот):

/dev/sda1:
          Магия: a92b4efc
        Версия : 1.2
    Карта функций: 0x1
     UUID массива: f9b65f55:5f257add:1140ccc0:46ca6c19
           Имя: localhost.localdomain:SW-RAID6
  Время создания: ср 13 сентября 15:09:40 2017
     Уровень рейда: рейд 6.
   Рейдовые устройства: 30

 Доступный размер разработчика: 15627788288 секторов (7,28 ТиБ, 8,00 ТБ)
     Размер массива: 218789036032 КиБ (203,76 ТиБ 224,04 ТБ)
    Смещение данных: 262144 сектора
   Супер смещение: 8 секторов
   Неиспользованное пространство: до = 262056 секторов, после = 0 секторов
          Состояние: чистое
    UUID устройства: 917e739e:36fa7cf6:c618d73c:43fb7dec

Внутреннее растровое изображение: 8 секторов из суперблока
    Время обновления: пятница, 20 мая, 23:54:52 2022 г.
  Журнал плохих блоков: 512 записей доступны по смещению 72 сектора
       Контрольная сумма: 2b5e9556 - правильно
         События : 1152436

         Макет: левосимметричный
     Размер блока: 512 КБ

   Роль устройства: активное устройство 0
   Состояние массива: AAAAAAAAAAAAAAAAAAAAAAAAAAAAAA ('A' == активно, '.' == отсутствует, 'R' == замена)

Соответствующие записи в dmesg показывают:

[13297.001208] XFS (md125): монтирование файловой системы V5
[13297.008854] XFS (md125): журнал несогласован (предыдущий заголовок не найден)
[13297.008874] XFS (md125): не удалось найти заголовок журнала
[13297.008878] XFS (md125): ошибка монтирования/восстановления журнала: ошибка -5
[13297.008934] XFS (md125): сбой монтирования журнала

Предыстория этого довольно длинная и сложная, но короткая версия заключается в том, что я пытался увеличить массив с добавлением дополнительного диска, и операция была прервана. В конце концов я восстановил массив, изменив его форму до исходных 30 дисков (что заняло целых две недели!), Но теперь он не хочет монтироваться.

К сожалению, это не резервное копирование (я имею в виду, где вы делаете резервные копии 200 ТБ?!?!). Здесь не должно было храниться ничего ценного, но люди, каковы они есть, там хранились некоторые важные вещи.

я посмотрел на xfs_repair но я не уверен, следует ли запускать его на массиве RAID (md125) или на отдельных устройствах sd*.

Спасибо

Обновление (история всего этого):

Устройство представляет собой сервер SuperMicro под управлением CentOS 7 (3.10.0-1160.11.1.e17.x86_64) с версией 4.1 — 01.10.2018 mdadm с 30 дисками по 8 ТБ в конфигурации RAID6. Он также имеет загрузку и root на 2 массивах RAID1 — массив RAID6 предназначен исключительно для данных. На нем заканчивалось место, поэтому мы решили добавить в массив больше дисков (всего он может содержать 45 дисков).

Поскольку исходный диск в массиве был 4kN, а поставляемые устройства были 512e, необходимо было переформатировать их с помощью sg_format для их преобразования (процедура, поддерживаемая Western Digital). Я начал с одного диска в качестве теста. К сожалению, процесс был прерван на полпути, поэтому я перезапустил его и завершил нормально, вроде как… он преобразовал диск в 4096 КБ, но выдал одну или две ошибки ввода-вывода, но они не казались слишком важными, и я полагал, что если есть проблема, она обнаружится через следующие пару шагов. С тех пор я обнаружил журнал dmesg, который показал, что ошибок ввода-вывода значительно больше, чем я думал.

В любом случае, поскольку sg_format, казалось, завершился нормально, я перешел к следующему этапу, который должен был разбить диск с помощью следующих команд.

     parted -оптимальный /dev/sd<x>
     (разделенный) mklabel msdos
     (parted) mkpart primary 2048s 100% (нужно проверить правильность запуска)
     (parted) align-check optimal 1 (проверить выравнивание раздела 1)
     (parted) установить 1 рейд (установить ФЛАГ на RAID)
     (разделенный) печать

Затем я добавил новый диск в массив:

     mdadm --добавить /dev/md125 /dev/sd<x>

И завершилось без проблем.

Затем я приступил к увеличению массива:

     mdadm --grow --raid-devices=31 --backup-file=/grow_md125.bak /dev/md125

Я отслеживал это с помощью cat /proc/mdstat, и он показал, что он меняет форму, но скорость составляет 0 КБ/сек, а изменение формы не происходит с 0%.

Примерно через 12 часов, когда изменение формы не прогрессировало с 0%, я рассмотрел способы его прерывания, такие как mdadm --stop /dev/md125, что не сработало, поэтому я перезагрузил сервер.

Сервер перешел в аварийный режим.

Я смог войти в систему как root OK, но массив RAID6 застрял в состоянии изменения формы.

затем я попытался mdadm --assemble --update=revert-reshape --backup-file=/grow_md125.bak --verbose --uuid= f9b65f55:5f257add:1140ccc0:46ca6c19 /dev/md125 и это произвело:

     mdadm: суперблок не найден в /dev/sde (ожидается волшебство a92b4efc, получено <различные числа>
     mdadm: нет суперблока RAID в /dev/sde
     .
     .
     mdadm: /dev/sde1 определяется как член /dev/md125, слот 6
     .
     .
     mdadm: /dev/md125 имеет активное изменение формы — проверка необходимости восстановления критического раздела
     mdadm: нет резервных метаданных в /grow_md125.back
     mdadm: не удалось найти резервную копию критической секции
     mdadm: Не удалось восстановить критическую секцию для изменения формы, извините.

Я пробовал различные варианты этого, включая mdadm --assemble --invalid-backup --force все безрезультатно.

В этот момент я также удалил подозрительный диск, но это ничего не изменило.

Но самое близкое, что я подошел к исправлению, это запуск mdadm /dev/md125 --assemble --invalid-backup --backup-file=/grow_md125.bak --verbose /dev/sdc1 /dev/sdd1 ....... /dev/sdaf1 и это производит:

     mdadm: /dev/sdaf1 идентифицируется как член /dev/md125, слот 4.
     mdadm: /dev/md125 имеет активное изменение формы — проверка необходимости восстановления критического раздела
     mdadm: нет резервных метаданных в /grow_md125.back
     mdadm: не удалось найти резервную копию критической секции
     mdadm: продолжение без восстановления резервной копии
     mdadm: добавлен /dev/sdac1 в /dev/md125 как 1
     .
     .
     .
     mdadm: не удалось выполнить RUN_ARRAY /dev/md125: неверный аргумент

dmesg имеет эту информацию:

     md: md125 остановлен.
     md/raid:md125: reshape_position слишком рано для автоматического восстановления - прерывание.
     md: pers->run() не удалось...
     md: md125 остановлен.

После всего вышеперечисленного я загрузился с загрузочного компакт-диска и смог изменить его форму до исходных 30 устройств и загрузиться обратно в исходную установку (для этого мне пришлось выделить этот массив из fstab).

1192

0 + 0

линукс

устанавливать

Answer 1

0

Ответить

Answer 2

0

Ответить

Answer 3

3

Ответить

Answer 4

0

Ответить

Answer 5

0

Ответить

Answer 6

0

Ответить

Answer 7

0

Ответить

Answer 8

0

Ответить

Answer 9

0

Ответить

Answer 10

0

Ответить

Answer 11

0

Ответить

Answer 12

0

Ответить

Answer 13

0

Ответить

Answer 14

0

Ответить

Answer 15

1

Ответить

Answer 16

0

Ответить

Невозможно смонтировать файловую систему XFS из массива Linux RAID6 («Несовместимый журнал»)

Ответить или комментировать