Недавно у меня возникла проблема с экземпляром EC2. Работающий там сайт был недоступен 2 часа:
Загрузка процессора за последнюю неделю:
Остальные примерно в то время, когда это произошло:
системад
журнал примерно в тот период.
Что я могу там увидеть? Около 20:31 кажется, что все замедляется:
Выполнение поминутного задания, запланированное на 20:30, отложено на 20:31 следующей минуты. Пропуск выполнения задания.
Вакансии (кронид
) не запускается.
12 января, 21:31:29 ip-172-xx-x-xx.xx-yy-z.compute.internal chronyd[24287]: Обнаружен переход вперед во времени!
12 января 21:33:21 ip-172-xx-x-xx.xx-yy-z.compute.internal chronyd[24287]: не удается синхронизировать: нет выбираемых источников
dhclient
линии, обычно они сходятся, но в тот период было так:
12 января, 20:46:21 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: DHCPREQUEST от eth0 до 172.xx.x.xx, порт 67 (xid=0x7cb0e02d)
12 января, 20:46:22 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: DHCPACK от 172.xx.x.xx (xid=0x7cb0e02d)
12 января, 21:06:23 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: привязан к 172.yy.y.yy — обновление через 354 секунды.
Также:
12 января, 21:47:22 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: привязан к 172.yy.y.yy -- обновление через -554 секунды.
И, похоже, в 21:47 все возвращается на круги своя.
докер
работающие там контейнеры перезапущены. Я помню, что их логи начались ближе к 22:00, вероятно, в 21:47.
системный статус
журнал (/var/журнал/sa/sar12
):
19:00:01 все 3,77 0,00 0,53 0,00 0,53 0,00 0,11 0,00 0,00 95,05
19:00:01 0 4,22 0,00 0,54 0,01 0,45 0,00 0,11 0,00 0,00 94,68
19:00:01 1 3,33 0,00 0,53 0,00 0,61 0,00 0,10 0,00 0,00 95,43
19:10:01 все 3,47 0,00 0,52 0,00 0,54 0,00 0,13 0,00 0,00 95,34
19:10:01 0 4,01 0,00 0,53 0,00 0,48 0,00 0,10 0,00 0,00 94,88
19:10:01 1 2,93 0,00 0,52 0,01 0,60 0,00 0,15 0,00 0,00 95,80
19:20:01 все 1,89 0,00 0,47 0,00 0,46 0,00 0,10 0,00 0,00 97,08
19:20:01 0 1,54 0,00 0,46 0,00 0,39 0,00 0,10 0,00 0,00 97,50
19:20:01 1 2,24 0,00 0,48 0,00 0,53 0,00 0,10 0,00 0,00 96,65
19:30:01 все 1,37 0,00 0,47 0,00 0,42 0,00 0,09 0,00 0,00 97,65
19:30:01 0 1,55 0,00 0,46 0,00 0,36 0,00 0,08 0,00 0,00 97,54
19:30:01 1 1,18 0,00 0,48 0,00 0,47 0,00 0,10 0,00 0,00 97,77
19:40:01 все 1,32 0,00 0,47 0,00 0,41 0,00 0,10 0,00 0,00 97,71
19:40:01 0 1,46 0,00 0,46 0,00 0,33 0,00 0,09 0,00 0,00 97,66
19:40:01 1 1,18 0,00 0,47 0,00 0,48 0,00 0,10 0,00 0,00 97,77
19:50:01 все 1,36 0,00 0,48 0,00 0,41 0,00 0,10 0,00 0,00 97,65
19:50:01 0 1,14 0,00 0,45 0,00 0,33 0,00 0,11 0,00 0,00 97,96
19:50:01 1 1,58 0,00 0,50 0,00 0,50 0,00 0,09 0,00 0,00 97,33
20:00:01 все 2,17 0,00 0,52 0,01 0,52 0,00 0,12 0,00 0,00 96,66
20:00:01 0 2,26 0,00 0,49 0,01 0,45 0,00 0,13 0,00 0,00 96,67
20:00:01 1 2,08 0,00 0,55 0,01 0,60 0,00 0,12 0,00 0,00 96,65
20:10:01 все 3,47 1,35 2,41 0,08 0,58 0,00 0,15 0,00 0,00 91,96
20:10:01 0 3,28 1,11 2,38 0,07 0,50 0,00 0,15 0,00 0,00 92,51
20:10:01 1 3,66 1,58 2,45 0,09 0,66 0,00 0,15 0,00 0,00 91,40
20:10:01 CPU %usr %nice %sys %iowait %steal %irq %soft %guest %gnice %idle
20:20:01 все 1,73 0,00 0,54 0,07 0,48 0,00 0,10 0,00 0,00 97,07
20:20:01 0 1,94 0,00 0,58 0,07 0,40 0,00 0,10 0,00 0,00 96,90
20:20:01 1 1,52 0,00 0,51 0,08 0,55 0,00 0,11 0,00 0,00 97,23
21:50:02 все 2,11 0,11 50,63 43,63 0,09 0,00 0,02 0,00 0,00 3,41
21:50:02 0 3,34 0,09 15,85 77,19 0,07 0,00 0,02 0,00 0,00 3,45
21:50:02 1 0,93 0,12 83,90 11,54 0,11 0,00 0,02 0,00 0,00 3,37
22:00:01 все 2,11 0,00 0,43 2,61 0,35 0,00 0,07 0,00 0,00 94,42
22:00:01 0 1,87 0,00 0,45 2,73 0,25 0,00 0,07 0,00 0,00 94,63
22:00:01 1 2,36 0,00 0,42 2,50 0,45 0,00 0,07 0,00 0,00 94,20
22:10:01 все 0,80 0,00 0,33 0,00 0,29 0,00 0,06 0,00 0,00 98,52
22:10:01 0 0,82 0,00 0,31 0,00 0,20 0,00 0,07 0,00 0,00 98,59
22:10:01 1 0,77 0,00 0,35 0,00 0,37 0,00 0,06 0,00 0,00 98,45
22:20:01 все 0,85 0,00 0,35 0,00 0,29 0,00 0,07 0,00 0,00 98,44
22:20:01 0 0,85 0,00 0,34 0,00 0,21 0,00 0,07 0,00 0,00 98,53
22:20:01 1 0,86 0,00 0,36 0,00 0,37 0,00 0,06 0,00 0,00 98,35
22:30:01 все 1,41 0,00 0,38 0,00 0,33 0,00 0,08 0,00 0,00 97,79
22:30:01 0 1,13 0,00 0,36 0,00 0,25 0,00 0,07 0,00 0,00 98,18
22:30:01 1 1,69 0,00 0,40 0,00 0,42 0,00 0,09 0,00 0,00 97,40
22:40:01 все 0,98 0,00 0,35 0,00 0,29 0,00 0,06 0,00 0,00 98,32
22:40:01 0 0,70 0,00 0,33 0,00 0,22 0,00 0,06 0,00 0,00 98,69
22:40:01 1 1,25 0,00 0,36 0,00 0,35 0,00 0,07 0,00 0,00 97,96
22:50:01 все 0,65 0,00 0,34 0,00 0,28 0,00 0,06 0,00 0,00 98,68
22:50:01 0 0,80 0,00 0,34 0,00 0,20 0,00 0,05 0,00 0,00 98,61
22:50:01 1 0,50 0,00 0,34 0,00 0,35 0,00 0,06 0,00 0,00 98,75
Между 8:20 и 9:50 есть промежуток, и только в 9:50 мы видим загрузку (холостой ход 3%).
Что может быть актуально здесь, 04 января я включил синхронизацию времени (timedatectl set-ntp true
), потому что было смещение 15 минут:
Системные часы ошиблись на -910,996745 секунд
Это t3a.средний
пример. И я считаю, что кредитная спецификация была неограниченна к тому времени. По крайней мере, это то, что я увидел на следующий день. В любом случае, кредитный баланс не достиг пола.
Можешь объяснить? Что я могу проверить?
Честно говоря, я не могу быть уверен, что это не может быть вызвано сайтом или одним из его компонентов, но я не сталкивался с такими проблемами.
УПД Проблема могла быть вызвана утечкой памяти в одном из контейнеров. По крайней мере, после запуска нокогири
задачи в отдельных процессах, память перестала расти и подобных казусов пока не было.