Рейтинг:2

Неудачный экземпляр в вычислительном движке Google

флаг in

У меня есть экземпляр GCE, который работает уже несколько лет. Ночью экземпляр был перезапущен со следующими логами:

2022-02-13 04:46:36.370 CET calculate.instances.hostError Экземпляр остановлен Compute Engine.
2022-02-13 04:47:08.279 CET calculate.instances.automaticRestart Экземпляр, автоматически перезапущенный Compute Engine.

Однако экземпляр не перезапустился.

Я могу подключиться к последовательной консоли, где я вижу это:

последовательный порт: подключен к ***.europe-west1-b.*** порту 1 (
[ВРЕМЯ] Время ожидания устройства истекло ***
[DEPEND] Ошибка зависимости для файла… ***.
[DEPEND] Ошибка зависимости для /data.
[DEPEND] Сбой зависимости для локальных файловых систем.
[ OK ] Остановлена ​​отправка пароля для просмотра каталога консоли.
[ OK ] Stopped Forward Password Râ¦uests to Wall Directory Watch.
[ OK ] Достигнуты целевые таймеры.
         Запуск Поднять сетевые интерфейсы...
[ OK ] Закрытое сокет системного журнала.
[ OK ] Достигнута цель Запросы на вход в систему.
[ OK ] Достигнуты целевые пути.
[ OK ] Достигнуты целевые сокеты.
[ OK ] Запущена аварийная оболочка.
[ OK ] Достигнут целевой аварийный режим.
         Начинаем создавать временные файлы и каталоги...
[ OK ] Завершено Создание временных файлов и каталогов.
         Запуск синхронизации сетевого времени...
         Запуск обновления UTMP о загрузке/выключении системы...
[ OK ] Завершено обновление UTMP о загрузке/выключении системы.
         Запуск обновления UTMP об изменениях уровня запуска системы...
[ OK ] Завершено обновление UTMP об изменениях уровня запуска системы.
[ OK ] Запущена синхронизация сетевого времени.
[ OK ] Достигнут целевой набор системного времени.
[ OK ] Достигнута цель Синхронизация системного времени.
         Остановка синхронизации сетевого времени...
[ OK ] Синхронизация сетевого времени остановлена.
         Запуск синхронизации сетевого времени...
[ OK ] Запущена синхронизация сетевого времени.
[ OK ] Готово Поднять сетевые интерфейсы.
[ OK ] Достигнута целевая сеть.
[ OK ] Достигнутая целевая сеть находится в сети.
Вы находитесь в аварийном режиме. После входа введите "journalctl -xb" для просмотра
системные журналы, «перезагрузка systemctl» для r
Не удается открыть доступ к консоли, учетная запись root заблокирована.
См. справочную страницу sulogin(8) для более подробной информации.
Нажмите Enter, чтобы продолжить.

Похоже, что один из дисков не может быть подключен — но что мне теперь с этим делать? Кажется, что диск обычно доступен в вычислительном движке.

John Hanley avatar
флаг cn
Я предполагаю, что проблема с сетью Google Cloud VPC носит временный характер. Попробуйте перезагрузить экземпляр. Если у вас по-прежнему возникают проблемы, отредактируйте свой вопрос, указав подробности об экземпляре и его конфигурации GCP.
флаг in
Спасибо за ваш ответ. Экземпляр по-прежнему не запускается правильно. Какие детали будет хелфпул? Экземпляр «e2-small» работает в «europe-west1-b» с двумя дисками — одним обычным загрузочным диском и одним ssd-диском, который, похоже, не подключается.
John Hanley avatar
флаг cn
Я рекомендую открыть тикет в службу поддержки Google Cloud.
PjoterS avatar
флаг ve
У вас не было проблем с оплатой? Что такое образ этой ВМ? Вы меняли тип машины в последнее время? Вы использовали постоянный SSD или локальный SSD? Вы можете создать другую виртуальную машину без каких-либо проблем? Вы пытались выполнить `journalctl -xb` и `systemctl reboot`?
флаг in
Экземпляр не может нормально запуститься - он зависает на "нажмите Enter, чтобы продолжить", но потом ничего не происходит. Поэтому я не могу попробовать файл journalcrl. При перезапуске он будет зависать с тем же временем ожидания диска, что и выше. У меня нет никаких проблем с выставлением счетов, все остальное по-прежнему работает правильно. Я в последнее время даже не трогал машину, она просто умерла за ночь. Диск является постоянным диском.
флаг in
Я сообщил об этом в службу поддержки gce, но пока они не очень помогли, и теперь я жду 18 часов с момента последнего ответа.
Рейтинг:2
флаг ve

Боюсь, что вы ничего не сможете сделать с этой уязвимой ВМ.

В Организатор мероприятий документация или Вопросы-Ответы вы можете найти информацию:

Ошибка хоста (Compute.instances.hostError) означает, что на физическом компьютере, на котором размещена ваша виртуальная машина, возникла аппаратная или программная проблема, которая привела к сбою вашей виртуальной машины. Ошибка хоста, связанная с полным аппаратным сбоем или другими аппаратными проблемами, может помешать живая миграция вашей ВМ.

Экземпляр виртуальной машины, который находится в «облаке», по-прежнему является физической машиной, на которой выполняется ваша рабочая нагрузка. К сожалению, у этого экземпляра произошел аппаратный или программный сбой, и вы ничего не можете сделать.

GCP представил нечто, называемое Живая миграция что предотвращает подобные ситуации.

Compute Engine предлагает динамическую миграцию, чтобы поддерживать работу экземпляров вашей виртуальной машины, даже когда происходит событие хост-системы, такое как обновление программного или аппаратного обеспечения, однако я думаю, что уже слишком поздно настраивать это.

...

Динамическая миграция поддерживает работу ваших экземпляров во время:

  • Регулярное техническое обслуживание и модернизация инфраструктуры.
  • Обслуживание сетей и электросетей в дата-центрах.
  • Отказ оборудования, такого как память, ЦП, сетевые карты, диски, питание и т. д. Это делается на основе максимальных усилий; если оборудование полностью выходит из строя или иным образом препятствует динамической миграции, виртуальная машина автоматически аварийно завершает работу и перезапускается, а в журнале регистрируется hostError.

...

Динамическая миграция не изменяет никаких атрибутов или свойств самой виртуальной машины. Процесс динамической миграции просто переносит работающую виртуальную машину с одного хост-компьютера на другой хост-компьютер в той же зоне.

Возможный обходной путь

Поскольку вы упомянули, что диски являются постоянными и все еще видны в GCP, вы можете попытаться повторно подключить их к другой виртуальной машине. Руководство можно найти в Создание и подключение диска документация.

Рейтинг:1
флаг in

Наконец-то я нашел странную причину этой ошибки - см. оригинал /etc/fstab:

/dev/disk/by-id/google-***-data /data ext4 discard, по умолчанию 0 2

Но такого устройства на этом пути нет. Я решил это, прикрепив /dev/sdb вместо этого, но я думаю, что это не лучшее решение. Интересно, как так получается, что устройство вдруг напрочь пропадает и в итоге убивает машину.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.