Мы настроили компьютер AMD Ryzen с Ubuntu 21.10 и подключили 6 машин Akitio Duo к каждой из двух карт NVIDIA 4 ГБ, а также 13-ю карту непосредственно в слот PCIe, которая представляет собой карту NVIDIA 16 ГБ (RTX A4000).
У нас есть эта установка с 16-кратным потоком Alphafold2 (https://github.com/deepmind/alphafold#running-alphafold) и в большинстве случаев некоторое время может работать без проблем.
Но время от времени, может быть, в среднем раз в 24 часа или около того, компьютер полностью зависает. Если у нас есть только 4x Alphafold2, работающие на карте 16 ГБ, компьютер будет работать стабильно в течение нескольких недель, поэтому проблема, похоже, связана с заданиями на картах Akitio eGPU.
Есть ли где-нибудь, что может сказать нам, почему он падает (компьютер включен, но совершенно не отвечает, помогает только физическая перезагрузка кнопки питания)?
Смотря на /var/журнал/kern.log
похоже, ничего не указывает на проблему.
РЕДАКТИРОВАТЬ:
Бег dmidecode
когда подключена только карта на 16 гб плюс 2 акитио, выдает следующее:
# dmidecode --type 9 | egrep "Использование|Тип|Обозначение"
Обозначение: PCIEX16_1
Тип: x16 PCI-Express
Текущее использование: доступно
Обозначение: PCIEX16_2
Тип: x8 PCI Express
Текущее использование: используется
Обозначение: PCIEX1_1
Тип: x1 PCI Express
Текущее использование: доступно
спасибо @matigo за предложение посмотреть системный журнал.В последнем сбое он показывает бит над битом «@^», тогда жесткая перезагрузка была в 10:02.