Мы настроили компьютер AMD Ryzen с Ubuntu 21.10 и подключили 6 машин Akitio Duo, каждая с двумя картами NVIDIA 4 ГБ через два концентратора Thunderbolt, а также 13-ю карту непосредственно в слот PCIe, которая представляет собой карту NVIDIA емкостью 16 ГБ (RTX A4000). , может выполнять 4 задания параллельно).
У нас есть эта установка с 12 + 4 потоками Alphafold2 (https://github.com/deepmind/alphafold#running-alphafold) и в большинстве случаев некоторое время может работать без проблем.
Но время от времени, может быть, в среднем раз в 24 часа или около того, компьютер полностью зависает. Если у нас есть только 4x Alphafold2, работающие на карте 16 ГБ, компьютер работает стабильно в течение нескольких недель, поэтому проблема, похоже, связана с заданиями на картах Akitio eGPU.
Есть ли где-нибудь, что может сказать нам, почему он падает (компьютер включен, но совершенно не отвечает, помогает только физическая перезагрузка кнопки питания)?
Смотря на /var/журнал/kern.log
похоже, ничего не указывает на проблему.
Один аспект, о котором мы читали, заключается в том, что линии PCIe могут быть перегружены, и 16 потоков сбивают друг друга с таким количеством подключенных устройств PCIe. Поскольку эта машина не используется ни для чего другого, решит ли проблему отключение линий PCIe «Звук» или «USB 3.1»? Если да, то как?