Рейтинг:2

Периодические сбои Google App Engine

флаг in

Недавно мы заметили, что в нашем проекте Google App Engine периодически происходили сбои каждые 25 часов и 10 минут (1510 минут) в течение трех дней подряд без видимой причины.

Во время проблемы мы наблюдали отказ запросов с кодом 499 (запрос клиента закрыт) после очень долгого запроса (10 секунд). Запросы обычно занимают несколько сотен миллисекунд или иногда 2-3 секунды, но никогда не приближаются к 10 секундам. В то время мы не видели никакого всплеска трафика, и у нас не было запущенных фоновых заданий. С ЦП и памятью все было в порядке, пока не началась проблема, затем ЦП несколько увеличился (например, с 10% до 60%) и даже вызвал временное увеличение с 3 до 5 хостов.

Проект представляет собой Python Fast API. изображение развернуто в гибкой среде, минимум 3, максимум 12 хостов в то время.

Пример отказов из логов

Время этих сбоев было интересным, поскольку они произошли почти точно с разницей в 25 часов и 10 минут друг от друга. За эти дни у нас было несколько развертываний в разное время, также нет никакой связи с временем безотказной работы сервера.

Временные метки ниже указаны в формате UTC:

2021-11-17 17:43
2021-11-18 18:53
2021-11-19 20:03

Кто-нибудь видел что-нибудь подобное в Google App Engine или, возможно, с упомянутым изображением Fast API?

Рейтинг:0
флаг us

Однако 499 код состояния HTTP указывает, что клиент закрыл запрос. Возможной причиной этого является то, что ваш клиент был отключен в те сроки, которые вы указали.

Я бы порекомендовал вам проверить работоспособность ваших гибких экземпляров App Engine в эти моменты, проверив журналы Cloud Logging и особенно проверка здоровья, также вы можете использовать панель инструментов App Engine, чтобы узнать, не были ли экземпляры отрегулированы из-за высокой загрузки ЦП или ОЗУ. Но эта проблема, похоже, на стороне клиента, поэтому, возможно, стоит также проверить статус, откуда вы отправляли запрос.

Также я разделяю эта документация об устранении неполадок гибкого обслуживания App Engine, которые, я считаю, могут быть вам полезны.

robert avatar
флаг in
Спасибо за ваш ответ. 499 не причина, а побочный эффект. Клиенты отключились, поскольку истекло время ожидания запросов, потому что внезапно ответы не отправлялись обратно. Те GET 499, которые вы видите, относятся к проверкам работоспособности и также истекли. Мы исследовали Cloud Logging и все возможные метрики в GCP, и мы не смогли найти абсолютно никакой корреляции. Единственная корреляция была со временем, что это произошло ровно через 1510 минут 3 дня подряд, как по расписанию.
robert avatar
флаг in
Я также зашел в тупик с помощью Google Issue Tracker, они предложили подать заявку в службу поддержки, что нам может понадобиться в конечном итоге, если мы не сможем найти что-либо еще.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.