Я использую Apache 2 с серверами PHP 7.4.29 на Ubuntu 20.04 на AWS, используя балансировщик нагрузки AWS и группу автоматического масштабирования. Серверы подключаются к другим ресурсам AWS, таким как dynamodb, RDS (mysql), memcache и т. д.
Это стабильная производственная среда, выполняющая 10 тысяч обращений в минуту в обычном режиме и работающая безупречно.
Недавно у нас были пики нормального трафика X3, и серверы начали медленно реагировать.
New Relic показывает только то, что время PHP для этих транзакций больше, и не указывает на конкретный сервис.
Проблема в том, что в данный момент некоторые из этих серверов имеют нормальное время отклика
(~30 мс), а некоторые из них имеют большое время отклика (~500 мс). И это чередуется между серверами.
Поэтому не похоже, что замедление связано с внешней службой, такой как RDS, поскольку службы одинаковы для всех серверов.
Я прилагаю время отклика всех серверов, которые были активны в определенный временной интервал.
Что может вызвать такое поведение?
TLDR: я спрашиваю, как найти причину замедления времени отклика серверов PHP/Apache, когда это не происходит одновременно на всех серверах (поэтому это не внешняя общая служба), а новая реликвия просто показывает это как время PHP в сделки без дополнительной информации.