Рейтинг:0

Мониторинг состояния процесса nrpe nagios check_procs сервера Linux - нужна информация при перезапуске процесса

флаг mx

Мне нужно, чтобы меня проинформировали нагиос при перезапуске процесса на удаленном сервере.

Единственное, что я не знаю, как это сделать, это проверить его состояние процесса, и каким образом это сделать?

Я получил на удаленном сервере эту команду nrpe на данный момент: ./check_procs -c 1: -a "/usr/local/yyyprogram/sbin/XXXdaemon" -s Sl но этот процесс должен работать постоянно, имеет свой механизм перезапуска, и это единственное, что мне нужно знать - когда именно он перезапускается. Какое состояние процесса я должен добавить сюда, и как, например, -s SlRD в порядке? или -s Sl -s R -s D в порядке? Может быть, я могу сделать это по-другому, чтобы получить такую ​​​​информацию: OK|ПРЕДУПРЕЖДЕНИЕ|НЕИЗВЕСТНО|КРИТИЧЕСКОЕ? Единственный статус ОК у меня - ОК (значит работает).

Кроме того, как отслеживать его с другого сервера nagios, должен ли я проверять это каждую секунду? Когда служба перезапускается, я могу получить уведомление через одну или две минуты, но как узнать, что это произошло, не проверяя журналы? PID этой службы после механизма перезапуска отличается от прежнего.

Как я могу быть уверен, что весь статус включен в строку конфигурации команды nrpe?

Пожалуйста помоги:)

РЕДАКТИРОВАТЬ

root@server:/usr/local/nagios/libexec# ./check_procs -vv -a "/usr/local/yyyprogram/sbin/xxxdaemon"
CMD: /usr/bin/ps axwwo 'stat uid pid ppid vsz rss pcpu cgroup: 256 comm args'
Соответствует: uid=0 vsz=9412 rss=2804 pid=517515 ppid=1 jid=0 pcpu=0.20 stat=Sleettime= prog=xxxdaemon args=/usr/local/yyyprogram/sbin/xxxdaemon -d /usr/local/ ггггпрограмма/конф -б
 cgroup_hierarchy = (нуль)
Рейтинг:0
флаг cn

Прежде всего, если вас интересует, как долго выполняется процесс, check_procs не предлагает такой функциональности, насколько я вижу из -час флаг, поэтому я не уверен, почему вы предполагаете, что это так. Или это не то, что вы пытаетесь проверить?

Если вы хотите проверить, как долго выполняется процесс, вам не нужен плагин для этого. Этот пример захватывает PID netdata, дает вам иногда, greps для отображения только числа и использования xargs чтобы удалить лишние пробелы вокруг числа:

$ ps -p $(pidof /usr/sbin/netdata) -o etimes | grep -E "[1-9].*" | xargs
65805

$ systemctl перезапустить netdata

$ ps -p $(pidof /usr/sbin/netdata) -o etimes | grep -E "[1-9].*" | xargs
10

Все, что вам нужно сделать, это написать сценарий оболочки, который проверяет, меньше ли значение определенного числа, если есть проблема. выход 1, затем запустите этот скрипт поверх NRPE из Nagios.

Kamil Bu avatar
флаг mx
Нет, мне не нужна информация, как долго он работал. Мне нужно знать и получить информацию от nagios, что он перезапущен. И я не знаю, какие флаги я должен отслеживать и как получить эту информацию.
pzkpfw avatar
флаг cn
проверка etimes покажет вам, перезапустился ли он, и я только что рассказал вам, как это проверить. Как это не отвечает на ваш вопрос? что ты уже испробовал?

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.