Рейтинг:0

Удаленный сервер кажется мертвым, как устранить неполадки?

флаг us

У меня есть сервер Ubuntu, работающий удаленно в другом офисе. Несколько раз он выключался, и я не могу понять причину. Это сервер, который запрашивает внешний сервис через API. К мертвых Я имею в виду, что он все еще работает, но просто перестает работать. Сеть сервера, похоже, тоже отключена, и сканирование локальной сети не находит ее.

Он находится за офисным маршрутизатором и работает под управлением ядра 18.04 4.15.0-147-generic. Ни у кого на месте нет учетной записи на этом сервере.

Вот что я пробовал.

  1. последняя перезагрузка результат:
reboot system boot 4.15.0-151-generer Чт 22 июля 14:49 все еще работает
reboot system boot 4.15.0-147-generer Среда, 21 июля, 15:48, все еще работает
reboot system boot 4.15.0-147-generer Ср 21 июля 14:05 - 15:48 (01:43)
reboot system boot 4.15.0-147-generat Сб 17 июля 18:24 - 15:48 (3+21:24)
reboot system boot 4.15.0-147-generer Чт 15 июл 17:26 - 15:48 (5+22:22)

22 июл 14:49 была перезагрузка, которую я попросил персонал на месте сделать. 21 июля отключили электричество.

  1. /var/журнал/системный журнал
22 июля, 09:08:50 localhost service_start.sh[946]: INFO:launcher:myjob завершает вывод для 2.
22 июля 09:08:50 localhost service_start.sh[946]: INFO:launcJul 22 14:50:05 localhost systemd[1]: запуск переноса журнала в постоянное хранилище...
22 июля, 14:50:05 localhost systemd[1]: запущен демон метаданных LVM2.
22 июля, 14:50:05 localhost systemd[1]: начата загрузка/сохранение случайного начального числа.
22 июля, 14:50:05 localhost lvm[443]: отслеживаются 2 логических тома(ов) в группе томов «localhost-vg»
22 июля 14:50:05 localhost systemd[1]: Started Установите раскладку клавиатуры консоли.
22 июля, 14:50:05 localhost systemd-modules-load[436]: вставлен модуль 'iscsi_tcp'

Система отключилась после 22 июл 09:08:50. 22 июл 14:50:05 была перезагрузка, упомянутая ранее.

Похоже, что система не перезагружалась и не выключалась, иначе это должно быть указано в журнале. И в syslog тоже нет журнала системных ошибок.

Есть два пользовательских задания cron, настроенных для запуска каждые 5 и 10 минут, и в системном журнале были записи о запуске cron. 22 июл 09:05:01 прежде чем система стала мертвой вокруг 22 июл 09:08:50.

На месте нет технических специалистов, и в данный момент я могу подключиться к серверу только через TeamView с другого локального компьютера.

Я запустил htop, и нагрузка на систему была небольшой.

Я сейчас в растерянности. Что еще я должен проверить во время следующего сеанса TeamView?

Рейтинг:0
флаг br

У вас есть довольно много переменных в описании вашей проблемы, в первую очередь сетевая инфраструктура в том месте, где размещен сервер. Если бы это был мой сервер, первым шагом было бы подключиться к нему по ssh и выполнить:

хвост -f /var/журнал/системный журнал

Это или мониторинг одного из других файлов журнала может пролить свет на то, что заставляет сервер не отвечать.

Поскольку вы говорите, что сервер все еще работает, даже если он мертв (неясно, что это значит), это подразумевает потерю сетевого соединения, поэтому я бы сосредоточил свое внимание на этом.

Вы можете обнаружить, что самый быстрый способ решить эту проблему — устранить ее на месте через локальную локальную сеть.

флаг us
Он кажется мертвым, потому что кажется, что он не в сети во время просмотра команды. Я не могу пинговать его или ssh к нему. Он вернулся в сеть после перезагрузки. Я собираюсь настроить sar для мониторинга системы, это одна вещь, которую я собираюсь попробовать. Хотелось бы подключить монитор к серверу..
jones0610 avatar
флаг br
Мой ответ состоял в том, чтобы сделать именно это: подключиться к серверу по ssh из любого места, пока сервер все еще работает правильно. Посмотрите, улавливает ли системный журнал что-либо, указывающее на проблемы. Из вашего первоначального описания я сделал вывод, что произошло что-то, что привело к потере сетевого подключения ... это может быть связано или не быть связано с проблемой сервера или просто с чем-то, что происходит на хост-сайте. Если мой ответ поможет вам решить эту проблему, я был бы признателен за голосование.
флаг us
жаль отсутствовал на работе неделю. У меня есть резервная копия системного журнала. судя по логам, записанным до и после возникновения проблемы, это похоже на пробел. между ними ничего не произошло. Как упоминалось ранее, я собираюсь внедрить систему мониторинга, чтобы помочь в устранении неполадок.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.