Недавно мы заметили, что в нашем проекте Google App Engine периодически происходили сбои каждые 25 часов и 10 минут (1510 минут) в течение трех дней подряд без видимой причины.
Во время проблемы мы наблюдали отказ запросов с кодом 499 (запрос клиента закрыт) после очень долгого запроса (10 секунд). Запросы обычно занимают несколько сотен миллисекунд или иногда 2-3 секунды, но никогда не приближаются к 10 секундам. В то время мы не видели никакого всплеска трафика, и у нас не было запущенных фоновых заданий. С ЦП и памятью все было в порядке, пока не началась проблема, затем ЦП несколько увеличился (например, с 10% до 60%) и даже вызвал временное увеличение с 3 до 5 хостов.
Проект представляет собой Python Fast API. изображение развернуто в гибкой среде, минимум 3, максимум 12 хостов в то время.
Время этих сбоев было интересным, поскольку они произошли почти точно с разницей в 25 часов и 10 минут друг от друга. За эти дни у нас было несколько развертываний в разное время, также нет никакой связи с временем безотказной работы сервера.
Временные метки ниже указаны в формате UTC:
2021-11-17 17:43
2021-11-18 18:53
2021-11-19 20:03
Кто-нибудь видел что-нибудь подобное в Google App Engine или, возможно, с упомянутым изображением Fast API?