Рейтинг:0

Raid 5 с горячим резервом (17+1) каким-то образом стал Raid 5 без горячего резерва (18+0)? (Делл Poweredge T640)

флаг es

Итак, недавно у нас были странные проблемы с сервером хранения RAID. Самая последняя проблема, я понятия не имею, что может происходить.

конфиг рейд 5; 17 + 1 (17 дисковых томов + 1 выделенный «горячий» резерв)

Диск помечен как «удаленный». Поскольку в настоящее время у нас очень ограниченный бюджет, мы пытаемся переустановить все диски, прежде чем заменять их, при условии, что в любой момент времени был отмечен только 1 диск (идея в том, что мы можем себе это позволить + еще один диск). выйти из строя из-за конфигурации 17+1). Серверы почти не используются с точки зрения реальных потребностей в защите данных, пространство используется для временной обработки блокнота, а не для архивирования важных вещей. Так что это не конец света, но все же хотелось бы иметь буфер рейда 5, плюс лишний буфер выделенного запасного.

Я переустановил диск, и вместо того, чтобы сервер вернулся к конфигурации 17 + 1, он странным образом обнаружил, что теперь он представляет собой том RAID 5 из 18 дисков. В прошлом при переустановке сервер возвращался к 17+1, как и ожидалось. Иногда +1 возвращается как чужой или не назначается автоматически в качестве выделенного запасного, но всегда возвращается как отдельный для 17 используемых дисков. Либо «горячий» резерв — это тот, который был удален, либо один из 17 был «удален», и «горячий» резерв автоматически занял место 17-го диска в томе рейда 5, так что переустановленный диск является излишком по сравнению с 17 дисками, которые составляют новый набор из 17 дисков.

Что мне делать? Предположительно, я не могу уменьшить объем до 17, а затем повторно назначить диск в качестве выделенного горячего резерва, поскольку том рейда теперь составляет 18 дисков. Но если это так, у нас больше нет конфигурации, предлагающей нам возможность восстановить 2 потерянных диска, так как нет 19-го слота для установки выделенного горячего резерва.

Рейтинг:4
флаг ru

18-дисковый RAID5 — это крушение поезда, ожидающее своего часа... Надеюсь, у вас есть хорошая резервная копия.

Серьезно, вам нужно использовать RAID6 для всего, что превышает максимум 5 дисков или диски размером более 1 ТБ.

Поскольку у вас нет возможности сжать массив, вам нужно будет добавить диски, чтобы вы могли перейти на RAID6 с горячим резервированием или без него. С 18 дисками я бы серьезно предложил использовать RAID60 с подмассивами из девяти дисков (спасибо @Nikita).

у нас больше нет конфигурации, предлагающей нам возможность восстановить 2 потерянных диска

У тебя никогда не было. RAID5 с запасным хостом может восстанавливаться после один потерял драйв и после восстановления может оправиться от Другая потерял драйв. Если что-то происходит во время перестроения, что не редкость, массив теряется.

нет 19-го слота для установки выделенного горячего резерва.

Если вы не можете добавить диски, вам все равно не хватит места. Либо протестируйте свою схему резервного копирования и восстановления, удалив и создав RAID6 или лучше - RAID60 на этот раз или рассмотрите возможность миграции на новый сервер.

Если нет бюджета и периода обслуживания для воссоздания массива, у вас почти нет вариантов. Убедитесь, что есть надежный и хорошо проверенный резервное копирование (два экземпляра резервной копии на разных носителях, тестирование, включая восстановление на «голое железо»), выполнение регулярной очистки (значительно снижает вероятность появления ошибок устаревших данных при восстановлении), прекращение практики переустановки (из-за которой вы могли столкнуться с этой проблемой в первое место) и держите большие пальцы. Ты бежишь на перегаре.

Кстати, вы оценили стоимость и сценарий полного отказа массива?

Nikita Kipriyanov avatar
флаг za
Один RAID6 из 18 устройств почти так же плох, как RAID5. Я бы предложил RAID60, две группы по 9 дисков.
Zac67 avatar
флаг ru
@NikitaKipriyanov Справедливое замечание - один большой RAID5 намного хуже, чем один большой RAID6.
флаг es
Спасибо! Это моя первая большая современная система хранения. Я пытаюсь найти лучший способ справиться с этим. Он был разработан комп. ученый старой школы. Умный, но не ориентированный на бизнес/цену/производительность. Цена потери не равна нулю, но она не особенно высока. Мы берем диски и пытаемся извлечь из них полезную информацию, либо фактические данные файла, либо метаданные/отношения. Фактически сгенерированные данные во много раз превышают размер исходного диска, но, вероятно, 99,9% отбрасываются после сообщения/сопоставления. Главное, что мне показалось странным, это то, почему том рейда 5 автоматически изменился с 17 дисков на 18.
флаг es
WRT комментарий по отказоустойчивости: Думаю, я понимаю, что вы имеете в виду. Есть 2 возможности А) 0000h = 17 использовано | 0 восстановление | 1 запасной | 0 мертвых; 0100h = 16 использовано | 1 восстановление | 0 запасной | 1 мертвый; 03:00 = 15 использовано | 1 восстановление | 0 запасной | 2 мертвых; 04:00 = второй умирает до запасной перестройки, 15/17 не может восстановиться. Б) 0000h = 17 использовано | 0 восстановление | 1 запасной | 0 мертвых; 0100h = 16 использовано | 1 восстановление | 0 запасной | 1 мертвый; 03:00 = 17 использовано | 0 восстановление | 0 запасной | 1 мертвый; теперь 2-я смерть,но рейд уже перестроен; 0400h = 16 использовано | 0 восстановление | 0 запасной | 2 мертвых |
Рейтинг:1
флаг co

Raid6 намного лучше, чем R5 + горячий резерв, так как одновременно может выйти из строя в два раза больше дисков. На самом деле это ужас с таким количеством дисков в любом случае, но меньше ужаса, чем R5;)

Теперь у вас есть R5 на 18 дисках, поэтому, если что-то пойдет не так, вы полагаетесь на правильное чтение всех секторов с 17 дисков (из-за того, как работают суммы CRC, контроллер должен прочитать все пустые и все используемые сектора). Более того, некоторые из этих дисков нестабильны и, возможно, уже вышли из строя.

Обычно диск выбрасывается из RAID, так как для чтения данных требуется больше времени, чем обычно. Больше времени, чем обычно, обычно является признаком того, что ваш диск находится на грани отказа, и это может отображаться или не отображаться в SMART. И это, вероятно, «странные проблемы» с неисправными дисками, которые позже можно снова подключить к массиву.

Переустановка диска или его использование, возможно, является хорошей идеей в Raid 1/Raid10, а не в настройке, где у вас нет запаса. В таком случае, как ваш, я бы предположил, что массив уже мертв, иначе это, вероятно, произойдет очень скоро.

Таким образом, решение IMO было бы таким: используйте R10 с этими дерьмовыми, неисправными дисками и каким-то образом ограничьте использование ресурсов ИЛИ сделайте R6 с запасным, чтобы он мгновенно восстанавливался после потери одного диска. Лучше немного сохранить и удалить исторические данные, если вы находитесь в рамках бюджета, чем потерять все.

Вероятно, вам нужно начать исправлять это как можно скорее. Поговорите с боссом и сообщите, что эта схема рейда неадекватна и есть 3 варианта:

  • Продолжить в R5 и потерять все в недалеком будущем
  • Перестроение в R10 и ограничение хранимых данных
  • R6 + запасной, что, вероятно, очень плохая идея, но, возможно, вы могли бы сделать R6 без запасного для этой временной обработки и R1 для всех важных вещей (таким образом вы не будете жертвовать слишком большим объемом памяти).

На самом деле вам очень повезло, что это все еще работает...

флаг es
Спасибо. Да, нам, вероятно, повезло, что мы работаем с этим набором данных. Почитаю про другие конструкции. и т. д. Когда я получил формальное образование в области ИТ, технологии хранения данных не были такими продвинутыми, как сейчас (не каменный век, а уже давно), поэтому мне определенно есть над чем подумать. Разработчик системы (мой босс) также больше занимается наукой и исследованиями, чем экспертом по хранению данных.Он совершенно открыт для новых идей, но бюджетные ограничения сильны, и нет большого страха потери данных. Это больше то, что мы узнаем из обработки, чем создание наследия/архива.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.