Мой сервер Ubuntu отключился сегодня и, посмотрев на /var/журнал/kern.log
это было потому, что он перегрелся:
8 сентября, 07:00:22 Ядро ipc2-сервера: зарегистрирована файловая система QNX4 0.2.3 [289498.255583].
10 сентября, 20:04:00 ядро ipc2-сервера: [509336.574882] Thermal Thermal_zone1: достигнута критическая температура (100 C), выключение
10 сентября, 20:04:01 Ядро ipc2-сервера: [509337.601860] Thermal Thermal_zone1: достигнута критическая температура (100 C), выключение
Это кажется прекрасным, за исключением того, что это произошло из ниоткуда. Глядя на мой Сетевые данные журналы показывают, что он изменился со стабильных 44 ° по Цельсию t0 70 ° в течение 40 секунд, после чего сервер отключился (красная кривая, спускающаяся с 70 °, относится к тому времени, когда сервер был выключен):
Как вы можете видеть, только два датчика сообщили об этом изменении, а загрузка ЦП была на уровне 20% до выключения сервера:
Позже вы можете увидеть нормальный всплеск тепла из-за увеличения использования ЦП, когда все датчики температуры сообщают об увеличении тепла.
Такое со мной происходит впервые и вызывает некоторые вопросы.
- Есть ли какие-либо дополнительные журналы, которые я могу использовать для исследования этой проблемы, чтобы подтвердить, что это был аппаратный сбой или реальный перегрев?
- Нормально ли, что датчики температуры со временем выходят из строя?
- Можно ли их заменить в таком случае?
- Могу ли я изменить поведение Ubuntu, чтобы он отключал сервер, если все датчики температуры сообщают о высоких значениях?