Случайный сбой экземпляра EC2 рано утром

user959866

24.07.2023, 10:54

У меня есть приложение Java, работающее на экземпляре ec2. Nginx и mongodb также работают на экземпляре. Доступ к приложению осуществляется через ELB, который перенаправляет запросы экземпляру. У меня есть 2 версии одного и того же экземпляра, и одна из них получает немного больше трафика, чем другая (поскольку одна обслуживает активы для обоих приложений). Однако падает только основной, обслуживающий актив экземпляр.

По утрам экземпляр ec2 падает, и поэтому приложение больше не работает, когда я получаю текст от sns. Часто это происходит в 4:01 утра по всемирному координированному времени (что не похоже на совпадение), но были и другие случаи сбоев в диапазоне от 1:26 до 5:21.

Это странно, так как приложение используется днем, а не ночью. Я подтвердил это как в журналах nginx на экземпляре, так и в журналах приложений.

Это экземпляр t2.micro, но прежде чем я увеличу его, я хотел бы понять причину проблемы, поскольку в периоды пиковой нагрузки он, кажется, справляется со всем нормально, и не совсем понятно, почему он выходит из строя рано утром.

В момент возникновения проблемы наблюдается небольшой всплеск загрузки ЦП с ~ 2% до ~ 8%.

Подозрительной статистикой является огромный всплеск полосы пропускания чтения на томе ebs непосредственно перед сбоем, который, кажется, сохраняется до перезапуска.

всплеск пропускной способности при чтении на ebs

Единственное действие, о котором я знаю на томе, - это скачок резервного копирования монго, который сбрасывает базу данных и загружает архив на s3 в 2:40.

Может кто-нибудь, пожалуйста, дайте мне некоторое представление о том, что вызывает это? Извините, если этой информации недостаточно

0 + 0

веб хостинг

веб сервер

веб-приложения

амазон-ec2

амазон-ebs

user253751

24.07.2023, 11:49

Вы можете войти в 3:59 и запустить iotop?

Ответить

user959866

24.07.2023, 15:43

@user253751 user253751 хм, обычно я в это время сплю. Я мог бы воткнуть скрипт для вывода iotop в файл в то время. Но это не всегда последовательно

Ответить

Admin

Этот вопрос на других языках:

EN: EC2 instance crashing randomly early morning

TH: อินสแตนซ์ EC2 หยุดทำงานแบบสุ่มในตอนเช้า

RO: Instanța EC2 s-a prăbușit aleatoriu dimineața devreme

RU: Случайный сбой экземпляра EC2 рано утром

VI: Phiên bản EC2 gặp sự cố ngẫu nhiên vào sáng sớm

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.