Недавно мы развернули некоторое новое оборудование, и с первого дня у нас часто происходят случайные перезагрузки. Я на самом деле работал на консоли, и она просто перезагружается без каких-либо предупреждений.
Мы прошли кучу кроличьих нор, пытаясь устранить неполадки, но пока ничего не вышло. Это происходит на нескольких устройствах, что заставляет меня думать, что это не аппаратная проблема с одним неисправным устройством.
Сначала мы подумали, что это может быть жара, так как они развернуты «в поле», но перезагрузки происходят в любое время дня и ночи, а не только в самое жаркое время дня. Иногда это происходит посреди ночи, когда в шкафу 50 градусов по Фаренгейту, и устройство работает с минимальной нагрузкой.
Однако, похоже, это происходит во время наибольшей загрузки процессора. Вот недавние записи «последней перезагрузки»:
reboot system boot 5.4.0-77-generic вс 1 авг 17:31 все еще работает
reboot system boot 5.4.0-77-generic Вс 1 авг 15:48 все еще работает
reboot system boot 5.4.0-77-generic Вс 1 авг 15:32 все еще работает
reboot system boot 5.4.0-77-generic Сб 31 июля 19:02 все еще работает
reboot system boot 5.4.0-77-generic Sat 31 Jul 17:56 все еще работает
reboot system boot 5.4.0-77-generic Сб 31 июля 17:30 все еще работает
reboot system boot 5.4.0-77-generic Sat 31 Jul 17:17 все еще работает
reboot system boot 5.4.0-77-generic Sat 31 Jul 16:52 все еще работает
reboot system boot 5.4.0-77-generic Сб 31 июля 16:40 все еще работает
reboot system boot 5.4.0-77-generic Пт 30 июля 23:13 все еще работает
reboot system boot 5.4.0-77-generic Пт 30 июля 22:37 все еще работает
reboot system boot 5.4.0-77-generic Пт 30 июля 22:05 все еще работает
reboot system boot 5.4.0-77-generic Пт 30 июля 21:42 все еще работает
reboot system boot 5.4.0-77-generic Пт 30 июл 21:24 все еще работает
reboot system boot 5.4.0-77-generic Пт 30 июля 20:53 все еще работает
reboot system boot 5.4.0-77-generic Пт 30 июля 20:42 все еще работает
dmesg не показывает ничего полезного, связанного с перезагрузкой. Мы следили за файлами /var/log/kern.log и syslog.log весь день, но перед перезагрузкой ничего не добавлялось.
Подумав, что это может быть связано с нагревом, мы проверили датчики «watch -n 1» примерно в то время, когда они, скорее всего, перезагрузятся, и хотя процессор был «теплым», он все еще был ниже предела HIGH и 20-30 градусов. C ниже КРИТИЧЕСКОГО предела, который, как я понимаю, означает, что он выключится / перезагрузится.
Что мы можем попробовать дальше, чтобы отследить причину этих перезагрузок?
Спасибо.