Я изучал проблему и изо всех сил пытаюсь получить окончательный ответ или решение проблемы.
Во время динамической миграции виртуальных машин между двумя узлами узел, принимающий виртуальную машину, увидит всплеск загрузки одного ядра ЦП до 100 %, что повлияет на производительность и стабильность. Например, диспетчер задач будет медленно реагировать, зависать/заикаться и терять данные для отображения на графиках… на протяжении всего времени динамической миграции. Максимальная скорость Live Migration составляет 6–7 Гбит/с. Сервер-отправитель видит увеличение использования ядра ЦП, но оно распространяется на 2-3 ядра и не более чем на 50% каждое.
Мы включили vrss и vmmq, правильно установили количество доступных очередей, следуя различным руководствам, доступным в Интернете. При желании могу поделиться этими настройками. Я понимаю, что при использовании LBFO вы не можете включить vmmq (VMMQEnabledRequested = True, но VMMQEnabled = False), поэтому я настроил хост на использование переключателя SET без каких-либо изменений или улучшений.
Мы используем редакцию Windows Server 2016 Core с запущенными только ролями Hyper-V, у нас не установлены другие агенты или приложения — это стандартная установка. У нас также это происходит на всех наших кластерах (которые идентичны).
Настройки VMQ настроены так, чтобы избегать ядра 0, и мы обычно видим только ядра 4, 6 или 8, достигающие 100% — т. е. НИКОГДА не ядро 0 и никогда на ядрах до 16 (один процесс) или 32 (двойной процесс). .
Мы используем 2 x 10Gbe на карте Intel с двумя сетевыми картами (одна карта PCI) и находимся в команде SIT LBFO, настроенной на Hyper-V, а не на Dynamic (хотя эти настройки не имеют значения).
Сеть определяется с помощью SCVMM, а узлы используют виртуальный коммутатор SCVMM для выделенной сети Live Migration.
В настоящее время мы используем SMB для Live Migration, потому что мы можем ограничить пропускную способность SMB, чтобы она не превышала 100 % ограничения ЦП, но эта проблема возникает независимо от использования TCP/IP, сжатия или SMB (хотя сжатие использует ЦП в течение гораздо более короткого периода). . ПРИМЕЧАНИЕ. Для моего тестирования регулирование SMB отключено.
Ключевая проблема, которую мы хотим решить, заключается в том, что служба VMMS иногда зависает/блокируется во время событий утечки хоста. Например. если мы выполняем CAU, и каждый хост сливается по очереди, мы иногда получаем сбой, потому что хосту не удается слить все виртуальные машины. В этом сценарии проблемный сервер видит, что живые миграции «застряли» на 3% (в FCM), и вы не можете мигрировать или перезапускать виртуальные машины (они отключаются и никогда не возвращаются), и большинство инструментов, связанных с Hyper-V. перестают работать (например, get-vm просто зависает и никогда не отвечает), и ЕДИНСТВЕННОЕ исправление для этого — полная перезагрузка хоста (выключение/перезагрузка не завершается). Мы не можем найти причину этого, и единственные симптомы, которые мы видим, — это проблемы со стабильностью хоста, как указано выше.
Пожалуйста, дайте мне знать, какая информация вам нужна, чтобы помочь советом по этому вопросу.