Конфигурация маршрутизации портов Infiniband OpenSM N-to-N

Hugo Maxwell

04.02.2023, 12:11

У меня есть 10 серверов с двумя процессорами каждый и по одному сетевому адаптеру Mellanox 100G Infiniband на каждый процессор. Каждая сетевая карта подключена к одному 36-портовому коммутатору Mellanox 100G IB.

Мое приложение RDMA работает как один процесс на узел NUMA и привязывается к локальной сетевой карте, чтобы избежать трафика между процессорами. Каждый узел/процесс должен подключаться к каждому другому узлу, используя режим RC.

Проблема, с которой я столкнулся, заключается в том, что маршрутизация OpenSM по умолчанию заставляет меня использовать определенную сетевую карту для достижения определенного целевого узла. Поэтому мне пришлось бы использовать обе сетевые карты с обоих узлов NUMA для доступа ко всем остальным узлам. Это означает, что мне также понадобятся два PD, и мне придется дважды регистрировать всю память.

Есть ли способ разрешить одному сетевому адаптеру подключаться к любому другому сетевому адаптеру/порту в сети?

По сути, я хотел бы заставить OpenSM думать, что каждая сетевая карта находится на своем собственном сервере, т.е. делая вид, что трафик QPI невозможен.

Видеть: https://docs.mellanox.com/display/MLNXOFEDv461000/OpenSM

Когда матрицы MinHop существуют, каждый коммутатор посещается, и для каждого целевого LID принимается решение о том, какой порт следует использовать для доступа к этому LID.

Соответствующий код: https://github.com/linux-rdma/opensm/blob/844ab3b7edaad983449b5d3a4a773088b8daa299/opensm/osm_ucast_mgr.c#L201

0 + 0

линукс

бесконечная полоса

HPC

мелланокс

рдма

Рейтинг:1

Server

Hugo Maxwell

04.02.2023, 18:37

https://community.mellanox.com/s/question/0D51T00006RVtlU/rdmacm-connection-setup-issues

Напомним, что проблема была в значительной степени решена путем обеспечения работы службы ibacm (Infiniband Assistant Communication Manager) на всех серверах.

Бег судо ибакм на всех серверах проблема решена, не спрашивайте почему...

0 + 0

Admin

Этот вопрос на других языках:

EN: Infiniband OpenSM N-to-N port routing configuration

TH: การกำหนดค่าการกำหนดเส้นทางพอร์ต Infiniband OpenSM N-to-N

RO: Configurație de rutare a portului Infiniband OpenSM N-la-N

RU: Конфигурация маршрутизации портов Infiniband OpenSM N-to-N

VI: Cấu hình định tuyến cổng N-to-N của Infiniband OpenSM

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.