Рейтинг:0

Использование кластера eGPU приводит к сбою Ubuntu 21.10

флаг cn

Мы настроили компьютер AMD Ryzen с Ubuntu 21.10 и подключили 6 машин Akitio Duo к каждой из двух карт NVIDIA 4 ГБ, а также 13-ю карту непосредственно в слот PCIe, которая представляет собой карту NVIDIA 16 ГБ (RTX A4000).

У нас есть эта установка с 16-кратным потоком Alphafold2 (https://github.com/deepmind/alphafold#running-alphafold) и в большинстве случаев некоторое время может работать без проблем.

Но время от времени, может быть, в среднем раз в 24 часа или около того, компьютер полностью зависает. Если у нас есть только 4x Alphafold2, работающие на карте 16 ГБ, компьютер будет работать стабильно в течение нескольких недель, поэтому проблема, похоже, связана с заданиями на картах Akitio eGPU.

Есть ли где-нибудь, что может сказать нам, почему он падает (компьютер включен, но совершенно не отвечает, помогает только физическая перезагрузка кнопки питания)?

Смотря на /var/журнал/kern.log похоже, ничего не указывает на проблему.

РЕДАКТИРОВАТЬ:

Бег dmidecode когда подключена только карта на 16 гб плюс 2 акитио, выдает следующее:

# dmidecode --type 9 | egrep "Использование|Тип|Обозначение"
        Обозначение: PCIEX16_1
        Тип: x16 PCI-Express
        Текущее использование: доступно
        Обозначение: PCIEX16_2
        Тип: x8 PCI Express
        Текущее использование: используется
        Обозначение: PCIEX1_1
        Тип: x1 PCI Express
        Текущее использование: доступно

спасибо @matigo за предложение посмотреть системный журнал.В последнем сбое он показывает бит над битом «@^», тогда жесткая перезагрузка была в 10:02.

введите описание изображения здесь

флаг in
Есть ли что-нибудь в `/var/log/syslog`, что указывает на проблему?
719016 avatar
флаг cn
Добавлен скриншот до/после последнего сбоя. Зеленый бит в середине заставляет меня думать, что это был серьезный сбой, добавляя эти двоичные символы между сбоем и перезагрузкой. Машина подключена через Ethernet, поэтому у NetworkManager не должно быть проблем с беспроводной связью, поскольку беспроводная связь не требуется для подключения к сети...
флаг cn
Ray
Вы случайно не используете общую файловую систему, такую ​​как `OCFS2` или `GFS2`?
719016 avatar
флаг cn
NFS, да, монтируется как `mount -t nfs url:/this/that`.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.