Рейтинг:0

Компьютер с 12+1 подключенными графическими процессорами Thunderbolt 3 аварийно завершал работу при использовании eGPU

флаг de

Мы настроили компьютер AMD Ryzen с Ubuntu 21.10 и подключили 6 машин Akitio Duo, каждая с двумя картами NVIDIA 4 ГБ через два концентратора Thunderbolt, а также 13-ю карту непосредственно в слот PCIe, которая представляет собой карту NVIDIA емкостью 16 ГБ (RTX A4000). , может выполнять 4 задания параллельно).

У нас есть эта установка с 12 + 4 потоками Alphafold2 (https://github.com/deepmind/alphafold#running-alphafold) и в большинстве случаев некоторое время может работать без проблем.

Но время от времени, может быть, в среднем раз в 24 часа или около того, компьютер полностью зависает. Если у нас есть только 4x Alphafold2, работающие на карте 16 ГБ, компьютер работает стабильно в течение нескольких недель, поэтому проблема, похоже, связана с заданиями на картах Akitio eGPU.

Есть ли где-нибудь, что может сказать нам, почему он падает (компьютер включен, но совершенно не отвечает, помогает только физическая перезагрузка кнопки питания)?

Смотря на /var/журнал/kern.log похоже, ничего не указывает на проблему.

Один аспект, о котором мы читали, заключается в том, что линии PCIe могут быть перегружены, и 16 потоков сбивают друг друга с таким количеством подключенных устройств PCIe. Поскольку эта машина не используется ни для чего другого, решит ли проблему отключение линий PCIe «Звук» или «USB 3.1»? Если да, то как?

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.