Мы создали кластер GKE и получаем ошибки от gke-metrics-agent. Ошибки появляются каждые примерно 30 минут. Всегда одни и те же 62 ошибки.
Все ошибки имеют ярлык k8s-pod/k8s-app: "gke-metrics-agent".
Первая ошибка:
error exporterhelper/queued_retry.go:245 Ошибка экспорта. Попробуйте включить параметр конфигурации retry_on_failure. {"kind": "exporter", "name": "googlecloud", "error": "Ошибка rpc: code = DeadlineExceeded desc = Крайний срок истек до завершения операции."
За этой ошибкой следуют эти ошибки в порядке
- "go.opentelemetry.io/collector/exporter/exporterhelper.(*retrySender).send"
- "/go/src/gke-logmon/gke-metrics-agent/vendor/go.opentelemetry.io/collector/exporter/exporterhelper/queued_retry.go:245"
- go.opentelemetry.io/collector/exporter/exporterhelper.(*metricsSenderWithObservability).отправить
- /go/src/gke-logmon/gke-metrics-agent/vendor/go.opentelemetry.io/collector/exporter/exporterhelper/metrics.go:120
Таких ошибок около 40. Две ошибки, которые выделяются:
- ошибка exporterhelper/queued_retry.go:175 Ошибка экспорта. Сброс данных.Попробуйте включить send_queue, чтобы пережить временные сбои. {"вид": "экспортер", "имя": "googlecloud", "dropped_items": 19}"
- warn batchprocessor/batch_processor.go:184 Ошибка отправителя {"kind": "processor", "name": "batch", "error": "Ошибка rpc: code = DeadlineExceeded desc = Крайний срок истек до завершения операции."} "
Я пытался найти эти ошибки в Google, но ничего не нашел. Я даже не могу найти документацию для gke-metrics-agent.
Что я пробовал:
- проверить квоты
- обновить GKE до более новой версии (текущая версия 1.21.3-gke.2001)
- узлы обновления
- отключить все правила брандмауэра
- дать все разрешения узлам k8s
Я могу предоставить дополнительную информацию о нашем кластере kubernetes, но я не знаю, какая информация может быть важна для решения этой проблемы.