Рейтинг:0

оповещение prometheus о сбоях в работе Kubernetes

флаг gb

В кластере K8s у меня работают Prometheus Operator и AlertManager.

У меня есть это оповещение для обнаружения инцидентов, когда критический модуль не работает:

 - предупреждение: KubernetesContainerMission-gslNotRunning
    expr: kube_pod_status_ready{condition="false", pod=~"mission-gsl.*"} == 1 ИЛИ on() vector(0)
    для: 5м
    этикетки:
      серьезность: предупреждение
      среда: PRODUCTION_ENV
    аннотации:
      сводка: модуль CUSTOM Mission-GSL не работает более 5 минут (экземпляр {{ $labels.instance }})
      описание: "модуль Mission-GSL не работает более 5 минут"

Это развертывание автоматически перезапускается по расписанию каждый час и остается неактивным в течение примерно 30 секунд во время процесса.

Я ожидаю, что предупреждение не сработает, поскольку я устанавливаю 5-минутный период простоя, но это так.

Что мне не хватает?

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.