Raid6 намного лучше, чем R5 + горячий резерв, так как одновременно может выйти из строя в два раза больше дисков. На самом деле это ужас с таким количеством дисков в любом случае, но меньше ужаса, чем R5;)
Теперь у вас есть R5 на 18 дисках, поэтому, если что-то пойдет не так, вы полагаетесь на правильное чтение всех секторов с 17 дисков (из-за того, как работают суммы CRC, контроллер должен прочитать все пустые и все используемые сектора). Более того, некоторые из этих дисков нестабильны и, возможно, уже вышли из строя.
Обычно диск выбрасывается из RAID, так как для чтения данных требуется больше времени, чем обычно. Больше времени, чем обычно, обычно является признаком того, что ваш диск находится на грани отказа, и это может отображаться или не отображаться в SMART. И это, вероятно, «странные проблемы» с неисправными дисками, которые позже можно снова подключить к массиву.
Переустановка диска или его использование, возможно, является хорошей идеей в Raid 1/Raid10, а не в настройке, где у вас нет запаса. В таком случае, как ваш, я бы предположил, что массив уже мертв, иначе это, вероятно, произойдет очень скоро.
Таким образом, решение IMO было бы таким: используйте R10 с этими дерьмовыми, неисправными дисками и каким-то образом ограничьте использование ресурсов ИЛИ сделайте R6 с запасным, чтобы он мгновенно восстанавливался после потери одного диска. Лучше немного сохранить и удалить исторические данные, если вы находитесь в рамках бюджета, чем потерять все.
Вероятно, вам нужно начать исправлять это как можно скорее. Поговорите с боссом и сообщите, что эта схема рейда неадекватна и есть 3 варианта:
- Продолжить в R5 и потерять все в недалеком будущем
- Перестроение в R10 и ограничение хранимых данных
- R6 + запасной, что, вероятно, очень плохая идея, но, возможно, вы могли бы сделать R6 без запасного для этой временной обработки и R1 для всех важных вещей (таким образом вы не будете жертвовать слишком большим объемом памяти).
На самом деле вам очень повезло, что это все еще работает...