редактировать: в CentOS 8.5 пробовал с драйвером Mellanox 4.9-4.1.7.0 (устаревший) и 5.5-1.0.3.2:
Я не могу заставить работать свой адаптер Infiniband.
Результат ибстат
заявляет, что он не работает:
ЦС 'mlx5_0'
Тип ЦС: MT4123
Количество портов: 1
Версия прошивки: 20.31.1014
Аппаратная версия: 0
GUID узла: 0xb8cef60300a7fbbc
GUID образа системы: 0xb8cef60300a7fbbc
Порт 1:
Состояние: вниз
Физическое состояние: отключено
Оценить: 10
Базовая крышка: 65535
ЛКМ: 0
СМ крышка: 0
Маска возможностей: 0x2651e848
GUID порта: 0xb8cef60300a7fbbc
Канальный уровень: InfiniBand
И mlxlink -d mlx5_0
выходы:
Оперативная информация
----------------
Состояние: отключено
Физическое состояние: ETH_AN_FSM_ENABLE
Скорость : нет данных
Ширина : Н/Д
ФЭК: нет данных
Режим обратной связи: нет данных
Автосогласование: ВКЛ.
Поддерживаемая информация
--------------
Включенная скорость соединения: 0x00000075 (HDR, EDR, FDR, QDR, SDR)
Поддерживаемая скорость кабеля: 0x00000007 (QDR,DDR,SDR)
Информация об устранении неполадок
--------------------
Код операции состояния: 1036
Код операции группы: MNG FW
Рекомендация: Подключен не тот тип модуля. Перейдите на другой тип модуля.
Итак, здесь у меня есть информация по устранению неполадок, я просто не понимаю ее. Я почти уверен, что кабель подключен, может ли быть какая-то несовместимость между адаптерами Connect-X 3 (где работает служба opensm) и адаптерами Connect-X 6?
редактировать:
Адаптеры соединены коммутатором Mellanox SX6012.
Результат ibcheckstate -v
дается в следующем. Порт 1 — это узел с запущенным opensm, порт нового узла с адаптером ConnectX-6 отсутствует.
# Проверка переключателя: nodeguid 0x248a070300ccc140
Крышка проверки узла 2: ОК
Крышка проверки порта 2 порт 1: OK
Крышка проверки порта 2 порт 2: OK
Крышка проверки порта 2 порт 3: OK
Крышка проверки порта 2 порт 4: OK
Крышка проверки порта 2 порт 5: ОК
# Проверка Ca: nodeguid 0x0cc47affff5fb364
Крышка проверки узла 4: ОК
Крышка проверки порта 4 порт 1: ОК
# Проверка Ca: nodeguid 0x0cc47affff5fb8e4
Крышка узла проверки 6: ОК
Крышка проверки порта 6 порт 1: OK
# Проверка Ca: nodeguid 0x0cc47affff5fb4c4
Крышка проверки узла 5: ОК
Крышка проверки порта 5 порт 1: ОК
# Проверка Ca: nodeguid 0x0cc47affff5fb89c
Крышка проверки узла 3: ОК
Крышка проверки порта 3 порт 1: ОК
# Проверка Ca: nodeguid 0x248a070300f97f50
Крышка проверки узла 1: ОК
Крышка проверки порта 1 порт 1: ОК
*** ПРЕДУПРЕЖДЕНИЕ ***: эта команда устарела
## Резюме: проверено 6 узлов, найдено 0 неисправных узлов
## Проверено 10 портов, найдено 0 портов с плохим состоянием
Кабель работал как минимум с переходником ConnectX-4.