У меня проблема, одна из реплик зависла в состоянии ожидания.
Проблема: После очередного развертывания одна из новых реплик стекируется, и у меня есть пустой узел, который удовлетворяет всем необходимым требованиям.
Развертывание содержит требования к nodeSelector и сходству:
спецификация:
сходство:
подантиаффинити:
requiredDuringSchedulingIgnoredDuringExecution:
- селектор меток:
matchExpressions:
- ключ: приложение
оператор: В
ценности:
- Vision-API-экстракт
topologyKey: "kubernetes.io/hostname"
селектор узла:
тип установки: графический процессор
и есть 3 узла с правильной меткой
ip-10-0-11-16.ec2.internal Ready <нет> 114d v1.18.3 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/instance-type=g3.4xlarge,beta.kubernetes.io /os=linux,failure-domain.beta.kubernetes.io/region=us-east-1,failure-domain.beta.kubernetes.io/zone=us-east-1b,insttype=gpu,kubernetes.io/arch =amd64,kubernetes.io/hostname=ip-10-0-11-16,kubernetes.io/os=linux,node.kubernetes.io/instance-type=g3.4xlarge,topology.ebs.csi.aws.com /zone=us-east-1b,topology.kubernetes.io/region=us-east-1,topology.kubernetes.io/zone=us-east-1b
ip-10-0-11-206.ec2.internal Готов <нет> 342d v1.18.3 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/instance-type=g3.4xlarge,beta.kubernetes.io /os=linux,failure-domain.beta.kubernetes.io/region=us-east-1,failure-domain.beta.kubernetes.io/zone=us-east-1b,insttype=gpu,kubernetes.io/arch =amd64,kubernetes.io/hostname=ip-10-0-11-206,kubernetes.io/os=linux,node.kubernetes.io/instance-type=g3.4xlarge,topology.ebs.csi.aws.com /zone=us-east-1b,topology.kubernetes.io/region=us-east-1,topology.kubernetes.io/zone=us-east-1b
ip-10-0-11-44.ec2.internal Ready <нет> 114d v1.18.3 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/instance-type=g3.4xlarge,beta.kubernetes.io /os=linux,failure-domain.beta.kubernetes.io/region=us-east-1,failure-domain.beta.kubernetes.io/zone=us-east-1b,insttype=gpu,kubernetes.io/arch =amd64,kubernetes.io/hostname=ip-10-0-11-44,kubernetes.io/os=linux,node.kubernetes.io/instance-type=g3.4xlarge,topology.ebs.csi.aws.com /zone=us-east-1b,topology.kubernetes.io/region=us-east-1,topology.kubernetes.io/zone=us-east-1b
А вот и описание ожидающего пода
Предупреждение FailedScheduling <unknown> default-scheduler Доступно 0 из 13 узлов: 1 узел (узлы) не соответствует сходству/анти-соответствию модуля, 1 узел (узлы) не соответствует существующим правилам анти-соответствия модулям, 1 узел (узлы) s) имел taint {node.kubernetes.io/disk-pressure: }, который модуль не допускал, 10 узлов не соответствовали селектору узлов.
И пустое описание узла
Имя: ip-10-0-11-44.ec2.internal
Роли: <нет>
Метки: beta.kubernetes.io/arch=amd64
beta.kubernetes.io/instance-type=g3.4xlarge
beta.kubernetes.io/os=linux
отказ-домен.beta.kubernetes.io/region=us-east-1
отказ-домен.beta.kubernetes.io/zone=us-east-1b
insttype=графический процессор
kubernetes.io/arch=amd64
kubernetes.io/hostname=ip-10-0-11-44
kubernetes.io/os=linux
node.kubernetes.io/instance-type=g3.4xlarge
топология.ebs.csi.aws.com/zone=us-east-1b
топология.kubernetes.io/region=us-east-1
топология.kubernetes.io/zone=us-east-1b
Аннотации: csi.volume.kubernetes.io/nodeid: {"ebs.csi.aws.com":"i-00919faca1e45926f","efs.csi.aws.com":"i-00919faca1e45926f"}
flannel.alpha.coreos.com/backend-data: {"VtepMAC":"ce:02:a2:a2:5e:a7"}
flannel.alpha.coreos.com/backend-type: vxlan
flannel.alpha.coreos.com/kube-subnet-manager: правда
flannel.alpha.coreos.com/public-ip: 10.0.11.44
node.alpha.kubernetes.io/ttl: 0
volumes.kubernetes.io/controller-managed-attach-detach: правда
CreationTimestamp: Пт, 26 марта 2021 г., 08:54:41 +0000
Пороки: <нет>
Незапланировано: ложь
Арендовать:
HolderIdentity: ip-10-0-11-44.ec2.internal
AcquireTime: <не установлено>
RenewTime: вс, 18 июля 2021 г., 11:52:59 +0000
Условия:
Тип Статус LastHeartbeatTime LastTransitionTime Причина Сообщение
---- ------ ------------------ ------------------ ----- - -------
MemoryPressure False Вс, 18 июля 2021 г., 11:51:26 +0000 Сб, 17 июля 2021 г., 14:00:36 +0000 KubeletHasSufficientMemory У kubelet достаточно доступной памяти
DiskPressure False Вс, 18 июля 2021 г., 11:51:26 +0000 Сб, 17 июля 2021 г., 14:00:36 +0000 KubeletHasNoDiskPressure kubelet не имеет давления на диск
PIDPressure False Вс, 18 июля 2021 г., 11:51:26 +0000 Сб, 17 июля 2021 г., 14:00:36 +0000 KubeletHasSufficientPID kubelet имеет достаточно PID
Ready True Вс, 18 июля 2021 г., 11:51:26 +0000 Сб, 17 июля 2021 г., 14:00:38 +0000 KubeletReady kubelet публикует статус готовности. AppArmor включен
Адреса:
Внутренний IP: 10.0.11.44
Имя хоста: ip-10-0-11-44.ec2.internal
Внутренний DNS: ip-10-0-11-44.ec2.internal
Емкость:
присоединяемые-тома-aws-ebs: 39
процессор: 16
эфемерное хранилище: 60923672Ki
огромные страницы-1Gi: 0
огромные страницы-2Ми: 0
память: 125709124Ки
стручки: 110
Распределяемый:
присоединяемые-тома-aws-ebs: 39
процессор: 16
эфемерное хранилище: 56147256023
огромные страницы-1Gi: 0
огромные страницы-2Ми: 0
память: 125606724Ки
стручки: 110
Системная информация:
Идентификатор машины: 94c328b1fcaf4999b5de9f749ac998b8
UUID системы: ec2c3806-d842-c53f-e93f-cf9059701bdd
Идентификатор загрузки: 469aa16e-80f3-470b-9451-06078a78fa96
Версия ядра: 5.4.0-1051-aws
Образ ОС: Ubuntu 18.04.4 LTS
Операционная система: линукс
Архитектура: amd64
Версия среды выполнения контейнера: docker://18.9.7
Версия Kubelet: v1.18.3
Версия Kube-прокси: v1.18.3
ПодCIDR: 10.244.8.0/24
ПодCIDR: 10.244.8.0/24
ProviderID: aws:///us-east-1b/i-00919faca1e45926f
Незавершенные модули: (всего 8)
Имя пространства имен Запросы ЦП Ограничения ЦП Запросы памяти Ограничения памяти Возраст
--------- ---- ------------ ---------- --------------- ------------- ---
kube-system ebs-csi-controller-5b64f64f64-x97ng 0 (0%) 0 (0%) 0 (0%) 0 (0%) 24d
kube-system ebs-csi-node-2rwm4 0 (0%) 0 (0%) 0 (0%) 0 (0%) 114d
kube-system efs-csi-node-9dhb2 0 (0%) 0 (0%) 0 (0%) 0 (0%) 114d
kube-system kube-flannel-ds-amd64-9xkjg 100m (0%) 100m (0%) 50Mi (0%) 50Mi (0%) 114d
kube-system kube-proxy-nrjmh 0 (0%) 0 (0%) 0 (0%) 0 (0%) 114d
kube-system traefik-9mpzr 500м (3%) 1 (6%) 500Ми (0%) 800Ми (0%) 24д
узел мониторинга-экспортер-gj2qw 112m (0%) 270m (1%) 200Mi (0%) 220Mi (0%) 114d
мониторинг prometheus-operator-6f98f66b89-dnjqd 100m (0%) 200m (1%) 100Mi (0%) 200Mi (0%) 24d
Выделенные ресурсы:
(Общие лимиты могут превышать 100 процентов, т. е. превышены лимиты.)
Ограничения запросов ресурсов
-------- -------- ------
процессор 812 м (5%) 1570 м (9%)
память 850Ми (0%) 1270Ми (1%)
эфемерное хранилище 0 (0%) 0 (0%)
огромные страницы-1Gi 0 (0%) 0 (0%)
огромные страницы-2Mi 0 (0%) 0 (0%)
присоединяемые-тома-aws-ebs 0 0