Рейтинг:1

Ошибка диска ZFS при записи

флаг ck

наш резервный пул ZFS выдает странные ошибки диска при записи данных. Этот пул реплицируется через DRBD на второй сервер с идентичным оборудованием, на котором также возникают те же ошибки. Вот почему я не думаю, что это аппаратная проблема.

Настройка следующая (на обоих серверах):

  • Сервер Debian 10 с картой RAID-контроллера Adaptec ASR 71605 в режиме HBA. Все диски отображаются как RAW-диски.
  • Есть два пула (все диски — SSD ЦОД):
    1. RAID-Z3 с использованием восьми дисков, работает без проблем
    2. ЗЕРКАЛО с использованием двух дисков, получение ошибок диска
  • В каждом пуле создан один том ZFS (сжатие = lz4).
  • Тома синхронизируются со вторым сервером через DRBD (протокол C)
  • Блочное устройство, предоставляемое DRBD, содержит тома LVM, которые доступны нашим гипервизорам через iSCSI. Гипервизоры (XCP-ng) прозрачно управляют своими дисками на томах iSCSI.

На всех дисках в зеркальных пулах возникли следующие ошибки (не одновременно, а в разное время):

10 ноября 18:00:09 Ядро st41: [240970.603991] sd 0:1:8:0: [sdi] tag#977 FAILED Результат: hostbyte=DID_ABORT driverbyte=DRIVER_OK
10 ноября 18:00:09 ядро ​​st41: [240970.603997] sd 0:1:8:0: [sdi] tag#977 CDB: Write(10) 2a 00 a8 20 31 67 00 01 00 00
10 ноября 18:00:09 ядро ​​​​st41: [240970.604000] print_req_error: ошибка ввода-вывода, dev sdi, сектор 2820682087
10 ноября 18:00:09 ядро ​​st41: [240970.604065] zio pool=tank2 vdev=/dev/disk/by-id/ata-SAMSUNG_MZ7KH1T9HAJR-00005_S47PNA0R101407-part1 error=5 type=2 offset=1444188179968 size=13180728 flags0
10 ноября 18:00:10 Ядро st41: [240970.675209] aacraid: запрос сброса шины хоста. SCSI зависает?
10 ноября 18:00:10 ядро ​​st41: [240970.675272] aacraid 0000:82:00.0: выдающийся cmd: средний уровень-1
10 ноября 18:00:10 ядро ​​st41: [240970.675275] aacraid 0000:82:00.0: выдающийся cmd: lowlevel-0
10 ноября 18:00:10 ядро ​​st41: [240970.675278] aacraid 0000:82:00.0: выдающийся cmd: обработчик ошибок-0
10 ноября 18:00:10 ядро ​​st41: [240970.675280] aacraid 0000:82:00.0: выдающийся cmd: firmware-0
10 ноября 18:00:10 ядро ​​st41: [240970.675283] aacraid 0000:82:00.0: выдающийся cmd: ядро-0
10 ноября 18:00:10 ядро ​​st41: [240970.675317] aacraid 0000:82:00.0: тип сброса контроллера — 3
10 ноября 18:00:10 ядро ​​​​st41: [240970.675358] aacraid 0000:82:00.0: выдача сброса IOP
10 ноября 18:00:45 ядро ​​st41: [241005.856763] aacraid 0000:82:00.0: сброс IOP выполнен успешно
10 ноября 18:00:45 ядро ​​​​st41: [241005.879733] aacraid: интерфейс связи типа 2 включен
10 ноября 18:00:54 ядро ​​​​st41: [241014.950498] aacraid 0000:82:00.0: планирование повторного сканирования шины

Первые четыре строки приведенного выше журнала появляются несколько раз с разными секторами и данными CDB Write(10), но в остальном они одинаковы. Это всегда происходит в начале часа, когда наши сценарии резервного копирования начинают писать в этот пул.

Я попытался обновить пакеты ZFSonlinux, прошивку контроллера RAID и подключить диски к разным слотам на задней панели. Отчеты SMART о дисках вообще не показывают ошибок (и диски относительно новые).

Поскольку это происходит на обоих серверах и со всеми четырьмя дисками, я не думаю, что это аппаратная проблема с дисками или контроллерами RAID.

Единственная обнаруженная мной разница в конфигурации дисков в обоих пулах заключается в том, что отчеты ARCCONF Кэш записи: включен (обратная запись) для дисков зеркального пула, но Кэш записи: отключен (сквозная запись) для дисков пула RAID-Z3. Мне не удалось изменить этот режим кэширования, поскольку ARCCONF говорит, что диски находятся в режиме RAW и не поддерживают кэширование, поэтому я не уверен, можно ли доверять отчету о конфигурации.

Я не уверен, что делать сейчас, любая помощь приветствуется.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.