Рейтинг:0

Время простоя экземпляра EC2

флаг cn

Недавно у меня возникла проблема с экземпляром EC2. Работающий там сайт был недоступен 2 часа:

Загрузка процессора за последнюю неделю:

Остальные примерно в то время, когда это произошло:

системад журнал примерно в тот период.

Что я могу там увидеть? Около 20:31 кажется, что все замедляется:

Выполнение поминутного задания, запланированное на 20:30, отложено на 20:31 следующей минуты. Пропуск выполнения задания.

Вакансии (кронид) не запускается.

12 января, 21:31:29 ip-172-xx-x-xx.xx-yy-z.compute.internal chronyd[24287]: Обнаружен переход вперед во времени!
12 января 21:33:21 ip-172-xx-x-xx.xx-yy-z.compute.internal chronyd[24287]: не удается синхронизировать: нет выбираемых источников

dhclient линии, обычно они сходятся, но в тот период было так:

12 января, 20:46:21 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: DHCPREQUEST от eth0 до 172.xx.x.xx, порт 67 (xid=0x7cb0e02d)
12 января, 20:46:22 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: DHCPACK от 172.xx.x.xx (xid=0x7cb0e02d)
12 января, 21:06:23 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: привязан к 172.yy.y.yy — обновление через 354 секунды.

Также:

12 января, 21:47:22 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: привязан к 172.yy.y.yy -- обновление через -554 секунды.

И, похоже, в 21:47 все возвращается на круги своя.

докер работающие там контейнеры перезапущены. Я помню, что их логи начались ближе к 22:00, вероятно, в 21:47.

системный статус журнал (/var/журнал/sa/sar12):

19:00:01 все 3,77 0,00 0,53 0,00 0,53 0,00 0,11 0,00 0,00 95,05
19:00:01 0 4,22 0,00 0,54 0,01 0,45 0,00 0,11 0,00 0,00 94,68
19:00:01 1 3,33 0,00 0,53 0,00 0,61 0,00 0,10 0,00 0,00 95,43
19:10:01 все 3,47 0,00 0,52 0,00 0,54 0,00 0,13 0,00 0,00 95,34
19:10:01 0 4,01 0,00 0,53 0,00 0,48 0,00 0,10 0,00 0,00 94,88
19:10:01 1 2,93 0,00 0,52 0,01 0,60 0,00 0,15 0,00 0,00 95,80
19:20:01 все 1,89 0,00 0,47 0,00 0,46 0,00 0,10 0,00 0,00 97,08
19:20:01 0 1,54 0,00 0,46 0,00 0,39 0,00 0,10 0,00 0,00 97,50
19:20:01 1 2,24 0,00 0,48 0,00 0,53 0,00 0,10 0,00 0,00 96,65
19:30:01 все 1,37 0,00 0,47 0,00 0,42 0,00 0,09 0,00 0,00 97,65
19:30:01 0 1,55 0,00 0,46 0,00 0,36 0,00 0,08 0,00 0,00 97,54
19:30:01 1 1,18 0,00 0,48 0,00 0,47 0,00 0,10 0,00 0,00 97,77
19:40:01 все 1,32 0,00 0,47 0,00 0,41 0,00 0,10 0,00 0,00 97,71
19:40:01 0 1,46 0,00 0,46 0,00 0,33 0,00 0,09 0,00 0,00 97,66
19:40:01 1 1,18 0,00 0,47 0,00 0,48 0,00 0,10 0,00 0,00 97,77
19:50:01 все 1,36 0,00 0,48 0,00 0,41 0,00 0,10 0,00 0,00 97,65
19:50:01 0 1,14 0,00 0,45 0,00 0,33 0,00 0,11 0,00 0,00 97,96
19:50:01 1 1,58 0,00 0,50 0,00 0,50 0,00 0,09 0,00 0,00 97,33
20:00:01 все 2,17 0,00 0,52 0,01 0,52 0,00 0,12 0,00 0,00 96,66
20:00:01 0 2,26 0,00 0,49 0,01 0,45 0,00 0,13 0,00 0,00 96,67
20:00:01 1 2,08 0,00 0,55 0,01 0,60 0,00 0,12 0,00 0,00 96,65
20:10:01 все 3,47 1,35 2,41 0,08 0,58 0,00 0,15 0,00 0,00 91,96
20:10:01 0 3,28 1,11 2,38 0,07 0,50 0,00 0,15 0,00 0,00 92,51
20:10:01 1 3,66 1,58 2,45 0,09 0,66 0,00 0,15 0,00 0,00 91,40

20:10:01 CPU %usr %nice %sys %iowait %steal %irq %soft %guest %gnice %idle
20:20:01 все 1,73 0,00 0,54 0,07 0,48 0,00 0,10 0,00 0,00 97,07
20:20:01 0 1,94 0,00 0,58 0,07 0,40 0,00 0,10 0,00 0,00 96,90
20:20:01 1 1,52 0,00 0,51 0,08 0,55 0,00 0,11 0,00 0,00 97,23
21:50:02 все 2,11 0,11 50,63 43,63 0,09 0,00 0,02 0,00 0,00 3,41
21:50:02 0 3,34 0,09 15,85 77,19 0,07 0,00 0,02 0,00 0,00 3,45
21:50:02 1 0,93 0,12 83,90 11,54 0,11 0,00 0,02 0,00 0,00 3,37
22:00:01 все 2,11 0,00 0,43 2,61 0,35 0,00 0,07 0,00 0,00 94,42
22:00:01 0 1,87 0,00 0,45 2,73 0,25 0,00 0,07 0,00 0,00 94,63
22:00:01 1 2,36 0,00 0,42 2,50 0,45 0,00 0,07 0,00 0,00 94,20
22:10:01 все 0,80 0,00 0,33 0,00 0,29 0,00 0,06 0,00 0,00 98,52
22:10:01 0 0,82 0,00 0,31 0,00 0,20 0,00 0,07 0,00 0,00 98,59
22:10:01 1 0,77 0,00 0,35 0,00 0,37 0,00 0,06 0,00 0,00 98,45
22:20:01 все 0,85 0,00 0,35 0,00 0,29 0,00 0,07 0,00 0,00 98,44
22:20:01 0 0,85 0,00 0,34 0,00 0,21 0,00 0,07 0,00 0,00 98,53
22:20:01 1 0,86 0,00 0,36 0,00 0,37 0,00 0,06 0,00 0,00 98,35
22:30:01 все 1,41 0,00 0,38 0,00 0,33 0,00 0,08 0,00 0,00 97,79
22:30:01 0 1,13 0,00 0,36 0,00 0,25 0,00 0,07 0,00 0,00 98,18
22:30:01 1 1,69 0,00 0,40 0,00 0,42 0,00 0,09 0,00 0,00 97,40
22:40:01 все 0,98 0,00 0,35 0,00 0,29 0,00 0,06 0,00 0,00 98,32
22:40:01 0 0,70 0,00 0,33 0,00 0,22 0,00 0,06 0,00 0,00 98,69
22:40:01 1 1,25 0,00 0,36 0,00 0,35 0,00 0,07 0,00 0,00 97,96
22:50:01 все 0,65 0,00 0,34 0,00 0,28 0,00 0,06 0,00 0,00 98,68
22:50:01 0 0,80 0,00 0,34 0,00 0,20 0,00 0,05 0,00 0,00 98,61
22:50:01 1 0,50 0,00 0,34 0,00 0,35 0,00 0,06 0,00 0,00 98,75

Между 8:20 и 9:50 есть промежуток, и только в 9:50 мы видим загрузку (холостой ход 3%).

Что может быть актуально здесь, 04 января я включил синхронизацию времени (timedatectl set-ntp true), потому что было смещение 15 минут:

Системные часы ошиблись на -910,996745 секунд

Это t3a.средний пример. И я считаю, что кредитная спецификация была неограниченна к тому времени. По крайней мере, это то, что я увидел на следующий день. В любом случае, кредитный баланс не достиг пола.

Можешь объяснить? Что я могу проверить?

Честно говоря, я не могу быть уверен, что это не может быть вызвано сайтом или одним из его компонентов, но я не сталкивался с такими проблемами.

УПД Проблема могла быть вызвана утечкой памяти в одном из контейнеров. По крайней мере, после запуска нокогири задачи в отдельных процессах, память перестала расти и подобных казусов пока не было.

Tim avatar
флаг gp
Tim
Вероятно, в данном случае это не ответ, но в прошлом я видел, как экземпляры Windows отключались для обновлений Windows. Центр обновления Windows на EC2 иногда может быть довольно медленным.
Рейтинг:1
флаг jp

Похоже, ваш экземпляр был приостановлен/приостановлен из-за проблем с физическим хостом, на котором запущен ваш экземпляр EC2. Помните, что SLA уровня инстанса EC2 составляет 99,5%. Вероятно, вы хотите включить мониторинг для проверка состояния ваших экземпляров и автоматическое восстановление.

флаг cn
Судя по журналу `sysstat`, он действительно был приостановлен/приостановлен. Но это произошло из-за того, что в это время не удалось запустить задание `sa1`. Если вы посмотрите на журнал `systemd`, там нет никаких указаний на то, что он был приостановлен. Я добавил [другой файл] (https://gist.github.com/x-yuri/e13937c2d32e1a48ce76f756fce395f5#file-timestamps-txt) в суть, где вы можете увидеть метки времени для периода, когда он предположительно мог быть приостановлен. Что касается проверки статуса, метрика `StatusCheckFailed*` равна 0, так как задолго до момента инцидента...
флаг cn
...И с одной стороны, может быть, и моя вина, но посетителей пока немного и ломаться, мол, нечему. Ну по крайней мере я не сталкивался с такой проблемой. С другой стороны, я не могу быть уверен, что это не может быть вызвано сайтом или одним из его компонентов. Были ли у вас такие инциденты, особенно те, когда пользовательский интерфейс AWS сообщал вам, что ничего не сломалось?
флаг jp
Экземпляр потерял сетевое соединение примерно в 20:30 (плоский NetworkOut на графике), затем проблема на хосте, вероятно, была обнаружена автоматически, и инстанс был приостановлен и перенесен на другой физический хост между 21:12 и 21:31 (когда произошел скачок времени). был обнаружен).
флаг cn
Следует отметить, что трафик [никогда не достигал](https://i.imgur.com/Dm797xi.png) нулевой, но (по крайней мере) я не уверен, что именно он измеряет, так что это звучит правдоподобно. Это также объясняет скачок вперед во времени. Это лучшее объяснение на данный момент :) Хотя это не объясняет, почему проверки статуса не заметили его.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.