У меня есть кластер из 4 узлов в AWS, 2 узла которого постоянно отключаются, а иногда работает перезагрузка, а иногда требуется перезагрузить все узлы в кластере, чтобы вернуть все обратно.
[ec2-user@ip-172-31-7-235 ~]$ узел докера ls
ID ИМЯ ХОСТА СТАТУС ДОСТУПНОСТЬ МЕНЕДЖЕР СТАТУС ВЕРСИЯ ДВИГАТЕЛЯ
xhei85m3mjp6wikz81phl01sx * ip-172-31-7-235.us-west-2.compute.internal Готовый активный лидер 20.10.4
a63wole6vosq1t5s25wib8ggu ip-172-31-36-138.us-west-2.compute.internal Down Активен 19.03.13-ce
guw26oul1i2fb60f5shud8xif ip-172-31-47-112.us-west-2.compute.internal Готово Активно Доступно 19.03.13-ce
ex996ixxqo3s0mcig1zfzankg ip-172-31-47-251.us-west-2.compute.internal Готов Активен 19.03.13-ce
И вывод команды проверки:
[ec2-user@ip-172-31-7-235 ~]$ docker node проверяет ip-172-31-36-138.us-west-2.compute.internal
[
{
"ID": "a63wole6vosq1t5s25wib8ggu",
"Версия": {
"Индекс": 212444
},
"CreatedAt": "2021-02-10T13:25:54.271879167Z",
"UpdatedAt": "2021-07-23T07:36:17.078000983Z",
"Спецификация": {
«Ярлыки»: {},
«Роль»: «рабочий»,
«Наличие»: «активно»
},
"Описание": {
"Имя хоста": "ip-172-31-36-138.us-west-2.compute.internal",
"Платформа": {
"Архитектура": "x86_64",
«ОС»: «линукс»
},
"Ресурсы": {
"Нанопроцессоры": 2000000000,
«Байт памяти»: 8362287104
},
"Двигатель": {
"EngineVersion": "19.03.13-ce",
"Плагины": [
{
"Тип": "Журнал",
«Имя»: «awslogs»
},
{
"Тип": "Журнал",
"Имя": "свободно"
},
{
"Тип": "Журнал",
"Имя": "gcplogs"
},
{
"Тип": "Журнал",
"Имя": "гельф"
},
{
"Тип": "Журнал",
"Имя": "журнал"
},
{
"Тип": "Журнал",
"Имя": "json-файл"
},
{
"Тип": "Журнал",
"Имя": "местный"
},
{
"Тип": "Журнал",
"Имя": "logentries"
},
{
"Тип": "Журнал",
«Имя»: «splunk»
},
{
"Тип": "Журнал",
"Имя": "системный журнал"
},
{
"Тип": "Сеть",
"Имя": "мост"
},
{
"Тип": "Сеть",
"Имя": "хозяин"
},
{
"Тип": "Сеть",
"Имя": "ipvlan"
},
{
"Тип": "Сеть",
«Имя»: «маквлан»
},
{
"Тип": "Сеть",
"Имя": "ноль"
},
{
"Тип": "Сеть",
"Имя": "наложение"
},
{
"Тип": "Объем",
"Имя": "местный"
}
]
},
"TLSInfo": {
"TrustRoot": "-----BEGIN CERTIFICATE-----\nMIIBajCCARCgAwIBAgIUCi5JL30BEEaYOmlbrp9A+Rivul0wCgYIKoZIzj0EAwIw\nEzERMA8GA1UEAxMIc3dhcm0tY2EwHhcNMjEwMjEwMTMwMjAwWhcNNDEwMjA1MTMw\nMjAwWjATMREwDwYDVQQDEwhzd2FybS1jYTBZMBMGByqGSM49AgEGCCqGSM49AwEH\nA0IABFqgXKora10w8BODSxg9O4N9UveYhsitjwz+pHSi/6BB0j7YBu+4RADv4ZjK\nitIYTCLZZKbOx9saQ2YeB8sBxFajQjBAMA4GA1UdDwEB/wQEAwIBBjAPBgNVHRMB\nAf8EBTADAQH/MB0GA1UdDgQWBBTETORYsVN1OwUTjtYJHSJtGx55QzAKBggqhkjO\nPQQDAgNIADBFAiEA7qNRnsq0LUFenYODEah4Rku1YYpHBCHIid4W4Hy7MVcCICQF\n9BTfuQsAp5uQ72ycyWQfyQziFzbG+Sb/zQ8NzCRf\ n-----КОНЕЦ СЕРТИФИКАТА-----\n",
"CertIssuerSubject": "MBMxETAPBgNVBAMTCHN3YXJtLWNh",
"CertIssuerPublicKey": "MFkwEwYHKoZIzj0CAQYIKoZIzj0DAQcDQgAEWqBcqitrXTDwE4NLGD07g31S95iGyK2PDP6kdKL/oEHSPtgG77hEAO/hmMqK0hhMItlkps7H2xpDZh4HywHEVg=="
}
},
"Положение дел": {
«Состояние»: «вниз»,
"Message": "Сбой сердцебиения для узла в \"неизвестном\" состоянии",
"Адрес": "172.31.36.138"
}
}
]
Подскажите, пожалуйста, как отследить и исправить эту проблему?
Проблема возвращается даже после замены на новый узел.