Рейтинг:3

Raid 10 Проблемы с производительностью

флаг dk

Я нахожусь в процессе настройки зеркальной системы хранения для нашего бизнеса.

У нас нет бюджета на предварительные сборки, поэтому я пытаюсь сделать все возможное, чтобы получить максимальную отдачу от затраченных средств. Вот наша аппаратная разбивка:

Сан1 и Сан2 Виндовс Сервер 2019

СУПЕРМИКРО MBD-H11SSL-I 8-ядерный процессор Амд Эпик 7251

64 ГБ ОЗУ 8 ГБ x8

SSD для ОС 500GB

БИС 9380-8i8e

Intel 10G nic, 4 порта - сеть ISCSI

Intel 25G nic, 2 порта - Синхронизация между серверами - Jumbo Frames-9014.

1 внутренний сетевой адаптер 1G (данные), 1 IPMI Используется на МБ

IW-RJ224-03 Корпус с 24 отсеками для твердотельных накопителей, в котором установлено 24 накопителя Samsung 860 Pro по 2 ТБ, конфигурация Raid10. Подключен через 2 кабеля sas к карте 9380.

Мы будем использовать Starwind для синхронизации двух серверов.

В процессе настройки Starwind я пытался оценить производительность синхронизации, используя образы разных размеров от 500 ГБ до 5 ТБ.

Когда синхронизация начинается, система, записывающая данные синхронизации, практически не используется. Система заикается, монитор производительности зависает, и все работает ужасно, пока я не отключу все параметры кэширования. Если я включаю обратную запись или включаю дисковый кеш, я замечаю, что Core0 на numa 0 привязке 100%, и все идет наперекосяк ... другие ядра показывают очень мало или вообще не используются, за исключением пары.

Я пробовал всевозможные комбинации настроек привода, чтобы справиться с этим, но на данный момент я ничего не получаю. Я должен что-то упустить. Я настроил массив в настройках 2x8, 6x4 и 4x6 (стандартная полоса 64 КБ), думая, что меня сдерживает какое-то ограничение диска, но у меня был 1 случай, когда ничего не пошло не так, и диск без проблем записал синхронизацию 5 ТБ. , и через час с идеальным откликом системы. В то время она превышала 1,6 ГБ/с при включении обоих кешей в массиве 4x6. Я заметил, что core0, numa0 в то время почти простаивал, а core 2, numa 0 выполнял тяжелую работу. Снял все, чтобы воспроизвести и перестроить, с тех пор застрял. Теперь максимальная скорость каждой передачи составляет около 600 МБ при отключенном кеше, а при включении - около 1 ГБ / с, прежде чем он заметно борется.

Любые идеи, которые помогут указать мне правильное направление, приветствуются! На 9380 обновлена ​​прошивка, драйверы для карт Raid, Nics и компоненты MB обновлены.

Рейтинг:5
флаг vn

Вот некоторые мысли, которые могут помочь решить проблему:

  1. Если вы используете какое-либо объединение сетевых карт, это может непредсказуемым образом повлиять на производительность iSCSI и репликацию.Большинство поставщиков SAN/VSAN не поддерживают Teaming и вместо этого рекомендуют MPIO. Отключите объединение сетевых карт.
  2. Вы упомянули сетевой адаптер Intel 25G. Модель XXV710 может иметь проблемы с включенными Jumbo Frames. Отключите Jumbo Frames и запустите дополнительные тесты.
  3. Значение Jumbo Frame 9126 не типично для ОС Windows и используется в основном на коммутаторах. Значение по умолчанию для Windows — 9014.
  4. LSI 9380 не имеет Samsung 980 Pro в списке поддерживаемых дисков. Более того, 980 Pro — это накопитель NVMe (не SATA). Вы уверены, что у вас 980 Pro?

Я бы также рекомендовал связаться со службой поддержки Starwind, как упоминал BaronSamedi1958.

флаг dk
Yikes я был повсюду на месте да? Да, это твердотельные накопители 860... и да, это был 9014... я торопился после 10 часов выдергивания волос :). Я прикрепил его к сетевому адаптеру 710 25 ГБ без включенного масштабирования numa. это сразу решило проблемы, которые у меня были.
Рейтинг:3
флаг kz

Вам нужно точно настроить приоритет синхронизации, чтобы все это работало правильно.

https://www.starwindsoftware.com/help/ChangingSynchronizationPriority.html

Поскольку вы имеете дело с платным решением, я предлагаю обратиться за поддержкой.

флаг dk
Приоритет не должен влиять на производительность сервера. Это на сервере 2x25Gb для синхронизации с сервером. большая пропускная способность. синхронизация душит сервер, когда он использует только около 5 ГБ на соединение.
BaronSamedi1958 avatar
флаг kz
Дело не в сети, а в трафике синхронизации, переполняющем полосу пропускания ДИСКА.
флаг dk
Спасибо за помощь. На самом деле масштабирование NUMA не было включено на сетевом адаптере 25G ... поэтому оно привязывало 1 ядро ​​​​и удерживало все, приводя систему в состояние невосприимчивости. Спасибо.
BaronSamedi1958 avatar
флаг kz
Приятно слышать, что проблема ушла! :)

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.