У меня есть пул ZFS в текущем состоянии:
[root@SERVER-abc ~]# статус zpool -v DATAPOOL
пул: DATAPOOL
состояние: ДЕГРАДАЦИЯ
статус: На одном или нескольких устройствах произошла ошибка, в результате чего данные
коррупция. Приложения могут быть затронуты.
Действие: Восстановите рассматриваемый файл, если это возможно. В противном случае восстановить
весь пул из резервной копии.
см.: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
сканирование: повторное серебро 18,5 млн в 00:00:01 с 0 ошибками в среду, 5 января, 19:10:50 2022 г.
конфиг:`
ИМЯ СОСТОЯНИЕ ЧТЕНИЕ ЗАПИСЬ CKSUM
БАЛУ ДАННЫХ ДЕГРАДИРОВАНО 0 0 0
raidz2-0 ДЕГРАДАЦИЯ 0 0 0
gptid/14c707c6-f16c-11e8-b117-0cc47a2ba44e DEGRADED 0 0 17 слишком много ошибок
запасной-1 ОНЛАЙН 0 0 17
gptid/168342c5-f16c-11e8-b117-0cc47a2ba44e ОНЛАЙН 0 0 0
gptid/1bfaa607-f16c-11e8-b117-0cc47a2ba44e ОНЛАЙН 0 0 0
gptid/1875501a-f16c-11e8-b117-0cc47a2ba44e ОНЛАЙН 0 0 30
gptid/1a16d37c-f16c-11e8-b117-0cc47a2ba44e ОНЛАЙН 0 0 29
запчасти
gptid/1bfaa607-f16c-11e8-b117-0cc47a2ba44e INUSE используется в настоящее время
ошибки: Обнаружены постоянные ошибки в следующих файлах:
БАЗА ДАННЫХ/VMS/ubuntu_1804_LTS_ustrich-m6i87@auto-2022-01-04_11-41:<0x1>
<0x1080a>:<0x1>
<0x182a>:<0x1>
ПУЛ ДАННЫХ/VMS/ubuntu_1804_LTS_ustrich-m6i87:<0x1>
<0x16fa>:<0x1>
Это zpool с 4 + 1 запасным диском. Что-то случилось, и внезапно запасной диск автоматически соединился с другим диском как запасной-1.
Для меня это неожиданно, т.к.
- Почему запасной диск не заменил испорченный диск?
- Как узнать, почему запаска перескочила на запаску-1?
- Возможно ли (или даже рекомендуется/возможно) вернуть запасной диск, а затем заменить испорченный диск?
Цель состоит в том, чтобы спасти пул без необходимости получать тонны данных из резервной копии, но в основном я хочу понять, что произошло и почему. И как поступать в таких ситуациях, как в «лучших практиках».
Танков куча! :)
Система: SuperMicro, TrueNAS-12.0-U4.1, zfs-2.0.4-3
Изменить: изменен вывод с zpool status -x на zpool status -v DATAPOOL.
Edit2: На данный момент я понял, что первый 168342c5, похоже, имеет ошибку, и запасной (1bfaa607) вскочил. После этого 14c707c6 также ухудшился.
Edit3, Дополнительный вопрос: поскольку все диски (кроме одного в запасном-1), похоже, имеют ошибки CKSUM - что это означает? Прокладка кабеля? HBA? Все диски умирают одновременно?
Последнее обновление, после zpool очистить
и скраб zpool DATAPOOL
кажется очевидным, что произошло многое, и нет никакого способа спасти пул:
пул: DATAPOOL
состояние: ДЕГРАДАЦИЯ
статус: в настоящее время выполняется резервирование одного или нескольких устройств. Бассейн будет
продолжают функционировать, возможно, в ухудшенном состоянии.
Действие: Дождитесь завершения восстановления.
сканирование: resilver выполняется с четверга, 6 января, 16:18:05 2022 г.
1,82T просканировано со скоростью 1,55G/s, 204G выдано со скоростью 174M/s, всего 7,82T
40,8G восстановлено, 2,55% выполнено, осталось 12:44:33
конфигурация:
ИМЯ СОСТОЯНИЕ ЧТЕНИЕ ЗАПИСЬ CKSUM
БАЛУ ДАННЫХ ДЕГРАДИРОВАНО 0 0 0
raidz2-0 ДЕГРАДАЦИЯ 0 0 0
gptid/14c707c6-f16c-11e8-b117-0cc47a2ba44e DEGRADED 0 0 156 слишком много ошибок
запасной-1 ДЕГРАДИРОВАННЫЙ 0 0 0
gptid/168342c5-f16c-11e8-b117-0cc47a2ba44e DEGRADED 0 0 236 слишком много ошибок
gptid/1bfaa607-f16c-11e8-b117-0cc47a2ba44e ONLINE 0 0 0 (повторное серебрение)
gptid/1875501a-f16c-11e8-b117-0cc47a2ba44e DEGRADED 0 0 182 слишком много ошибок
gptid/1a16d37c-f16c-11e8-b117-0cc47a2ba44e DEGRADED 0 0 179 слишком много ошибок
запчасти
gptid/1bfaa607-f16c-11e8-b117-0cc47a2ba44e INUSE используется в настоящее время
Сейчас проверю всю смарт статистику.