Рейтинг:1

Почему графические процессоры не могут обмениваться данными на сервере с несколькими графическими процессорами?

флаг us

Это сервер Dell PowerEdge r750xa с 4 графическими процессорами Nvidia A40, предназначенный для приложений ИИ. В то время как графические процессоры работают хорошо по отдельности, учебные задания с несколькими графическими процессорами или любая вычислительная нагрузка с несколькими графическими процессорами терпят неудачу, когда по крайней мере 2 графических процессора должны обмениваться информацией, включая простойIPC и сопряженныйGradientMultiDeviceCG Образцы CUDA (первый показывает несовпадающие результаты, второй просто зависает).

Я видел обсуждения в Интернете (1, 2, 3), утверждая, что что-то под названием IOMMU должно быть отключено. Я попытался установить iommu=выкл. и intel_iommu=выкл. Флаги ядра Linux, но это не помогло. Я проверил настройки BIOS, но в BIOS нет возможности отключить IOMMU.

Рейтинг:1
флаг us

Хотя в этой версии BIOS нет явной настройки «IOMMU off», проблема по-прежнему связана с конфигурацией BIOS.

В БИОС заходим в «Интегрированные устройства» и изменить «База ввода-вывода с отображением памяти» настройка со значения по умолчанию «56 ТБ» на "12 ТБ". Это решит проблему. Нет необходимости добавлять какие-либо дополнительные параметры ядра.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.