Рейтинг:0

Адаптер Infiniband не работает

флаг cd

редактировать: в CentOS 8.5 пробовал с драйвером Mellanox 4.9-4.1.7.0 (устаревший) и 5.5-1.0.3.2:

Я не могу заставить работать свой адаптер Infiniband. Результат ибстат заявляет, что он не работает:

    ЦС 'mlx5_0'
        Тип ЦС: MT4123
        Количество портов: 1
        Версия прошивки: 20.31.1014
        Аппаратная версия: 0
        GUID узла: 0xb8cef60300a7fbbc
        GUID образа системы: 0xb8cef60300a7fbbc
        Порт 1:
            Состояние: вниз
            Физическое состояние: отключено
            Оценить: 10
            Базовая крышка: 65535
            ЛКМ: 0
            СМ крышка: 0
            Маска возможностей: 0x2651e848
            GUID порта: 0xb8cef60300a7fbbc
            Канальный уровень: InfiniBand

И mlxlink -d mlx5_0 выходы:

Оперативная информация
----------------
Состояние: отключено
Физическое состояние: ETH_AN_FSM_ENABLE
Скорость : нет данных
Ширина : Н/Д
ФЭК: нет данных
Режим обратной связи: нет данных
Автосогласование: ВКЛ.

Поддерживаемая информация
--------------
Включенная скорость соединения: 0x00000075 (HDR, EDR, FDR, QDR, SDR)
Поддерживаемая скорость кабеля: 0x00000007 (QDR,DDR,SDR)

Информация об устранении неполадок
--------------------
Код операции состояния: 1036
Код операции группы: MNG FW
Рекомендация: Подключен не тот тип модуля. Перейдите на другой тип модуля.

Итак, здесь у меня есть информация по устранению неполадок, я просто не понимаю ее. Я почти уверен, что кабель подключен, может ли быть какая-то несовместимость между адаптерами Connect-X 3 (где работает служба opensm) и адаптерами Connect-X 6?

редактировать:

Адаптеры соединены коммутатором Mellanox SX6012.

Результат ibcheckstate -v дается в следующем. Порт 1 — это узел с запущенным opensm, порт нового узла с адаптером ConnectX-6 отсутствует.

# Проверка переключателя: nodeguid 0x248a070300ccc140
Крышка проверки узла 2: ОК 
Крышка проверки порта 2 порт 1: OK 
Крышка проверки порта 2 порт 2: OK 
Крышка проверки порта 2 порт 3: OK 
Крышка проверки порта 2 порт 4: OK 
Крышка проверки порта 2 порт 5: ОК 

# Проверка Ca: nodeguid 0x0cc47affff5fb364
Крышка проверки узла 4: ОК 
Крышка проверки порта 4 порт 1: ОК 

# Проверка Ca: nodeguid 0x0cc47affff5fb8e4
Крышка узла проверки 6: ОК 
Крышка проверки порта 6 порт 1: OK 

# Проверка Ca: nodeguid 0x0cc47affff5fb4c4
Крышка проверки узла 5: ОК 
Крышка проверки порта 5 порт 1: ОК 

# Проверка Ca: nodeguid 0x0cc47affff5fb89c
Крышка проверки узла 3: ОК 
Крышка проверки порта 3 порт 1: ОК 

# Проверка Ca: nodeguid 0x248a070300f97f50
Крышка проверки узла 1: ОК 
Крышка проверки порта 1 порт 1: ОК 

*** ПРЕДУПРЕЖДЕНИЕ ***: эта команда устарела

## Резюме: проверено 6 узлов, найдено 0 неисправных узлов
## Проверено 10 портов, найдено 0 портов с плохим состоянием

Кабель работал как минимум с переходником ConnectX-4.

флаг br
Это когда-нибудь работало? если да то что изменилось? если он подключен к коммутатору IB, каково состояние этого порта? Кроме того, что вы делаете с этим сообщением «подключен неправильный тип модуля»?
Holger avatar
флаг cd
Пока это еще не сработало, адаптер Connect-X 6 принадлежит новому узлу, который я хочу установить. Я добавил к вопросу вывод ibcheckstate -v, новый адаптер полностью отсутствует. Сообщение «подключен неправильный тип модуля» — вот почему я спрашиваю о несовместимости.
Holger avatar
флаг cd
Как я также добавил, кабель работал для адаптера ConnectX-4.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.