Я пытался выяснить, что происходит с некоторыми из наших серверов. Это хосты KVM с 5-8 виртуальными машинами. Оперативная память> = 64 ГБ, 10-20 ядер. Они работают под управлением Ubuntu 18.04 LTS 4.15.0-142-generic Kernel, корневой раздел ext4 с шифрованием LUKS.
Случайным образом некоторые из этих серверов станут очень медленными. Все признаки указывают на дисковый ввод-вывод, но на самом деле операций ввода-вывода не так много (pidstat, iostat, vmstat). Короче говоря, система войдет в странное состояние блокировки, когда все станет медленным и не отвечает.
Одна вещь кажется общей с нездоровыми серверами. Обратная запись станет высокой ~ 2,5 ГБ и застрянет на этом значении без каких-либо изменений. Это может быть симптомом или причиной, я действительно не знаю. Я экспериментирую с уменьшением dirty_ratio, но пока не могу сказать, что это сработало.
Грязный: 1504 КБ
Обратная запись: 2537628 КБ
Вот трассировка вызовов зависших задач, собранная с помощью Sysrq-w.
Трассировка вызовов для зависших задач
Я также попытался связать проблему с аппаратным обеспечением и обнаружил, что это влияет на различное дисковое оборудование.
Перезагрузка, кажется, временно решает проблему. Иногда это возвращается через несколько дней.
Любые идеи будут полезны. Дайте мне знать, если вам нужна дополнительная информация.
заранее спасибо