У меня есть AWS ALB, который балансирует нагрузку запросов по кругу на четыре сервера.
Каждый сервер использует pm2 для циклического распределения этих запросов по шести процессорам.
Процессы NodeJS (реакция NextJS) выполняются на каждом из этих шести процессоров, обслуживаемых Express.js. Первое, что они делают, — регистрируют входящий запрос. (Они не выходят на веб-сервер, такой как apache или nginx, они идут прямо к Express.js.)
Обычно каждый отдельный запрос, попадающий в ALB, успешно перенаправляется и регистрируется процессом NodeJS. Однако иногда во время большого трафика некоторые запросы просто отбрасываются и никогда не доходят до процесса NodeJS. Очевидно, что наши серверные журналы не регистрируют эти сбои, поскольку они вообще никогда не попадают туда; мы видим этот разрыв только при сравнении с количеством запросов ALB.
Я пытаюсь понять механизм, который может привести к их падению. Может ли быть так, что время ожидания внутренней очереди NodeJS истекло? Или это может быть дело в ядре Linux? Мы видим признаки того, что в периоды повышенного трафика некоторые ЦП заняты, а другие бездействуют, что заставляет меня задуматься о длине очереди (формула Кингмана, закон Литтла и т. д.). Я могу придумать несколько способов уменьшить вероятность этого, от увеличения мощности сервера до сокращения времени отклика и изменения стратегии балансировки нагрузки на уровне сервера, но я больше пытаюсь понять, где запрос фактически зависает и что определяет, будет ли и как оно падать/исчезать - особенно если бы я мог зарегистрировать это или отправить какой-то сигнал, когда это произойдет.
Фрагменты конфигурации pm2:
модуль.экспорт = {
Программы: [
{
название: «сообщество»,
скрипт: 'dist/server.js',
экземпляры: -1,
exec_mode: 'кластер',
автоперезапуск: правда,
смотреть: ложь,
log_date_format: 'ГГГГ-ММ-ДД ЧЧ:мм Z',
max_memory_restart: '2G',
// ...
// и специфичные для окружения конфиги, такие как
env_production: {
NODE_ENV: «производство»,
NODE_OPTIONS: '--max-old-space-size=3584 --max-http-header-size=16380',
LOG_LEVEL: «ИНФОРМАЦИЯ»,
ПОРТ: 3000,
},
},
],
развертывать: {
// ...
},
};