Недавно я обновил наш кластер до Vmware Esxi 7.0 Update 3.
Через пару дней виртуальная машина начала произвольно зависать.
На экране не отображается сообщение. В событиях vm я вижу эти сообщения:
In(05) vcpu-0 — NVME-VMM: сброс уровня контроллера через переход бита CC.EN на nvme0
In(05) vcpu-0 - NVME-CORE: Выполняется частичный сброс регистров и очередей контроллера.
In(05) vcpu-1 - NVME-VMK: nvme0:0: игнорирование завершения [ignoreCmp=0].
В (05) vcpu-8 - NVME-VMM: Неожиданный дверной звонок CQ#8 пишет: prevHead=46, newHead=47, size=256, inflight=0
In(05) vcpu-0 — Vix: [vmxCommands.c:7182]: VMAutomation_HandleCLIHLTEvent. Ничего не делать.
В (05) vcpu-0 - MsgHint: msg.monitorevent.halt
In(05)+ vcpu-0 — процессор отключен гостевой операционной системой. Выключите или перезагрузите виртуальную машину.
В виртуальной машине я не вижу сообщений об ошибках.
За исключением того, что это всплывает примерно в то время, когда машина блокируется.
ядро: [28667.084637] nvme nvme0: тайм-аут ввода-вывода 197 QID 14, прерывание
ядро: [28667.084716] nvme nvme0: статус прерывания: 0x0
ядро: [28697.292556] nvme nvme0: тайм-аут ввода-вывода 197 QID 14, сброс контроллера
ядро: [28697.356676] nvme nvme0: 15/0/0 очередей по умолчанию/чтения/опроса
Виртуальная машина настроена с контроллером nvme, а виртуальный диск размещается на томе, сопоставленном с хранилищем nvme по nvme по оптоволоконному каналу.
После понижения версии Esxi до 7.0 Update 2d проблемы исчезли.
Vmware говорит мне, что это может быть связано с ошибкой ядра.
В чем может быть проблема?