Рейтинг:1

Сервер GPU зависает во время простоя GPU

флаг ar

У нас есть новый сервер Supermicro AS-4124GS-TNR, оснащенный восемью NVIDIA RTX A6000. ОС — Ubuntu 20.04.2, версия драйвера NVIDIA — 460.73.01 (драйвер Nouveau не используется), версия CUDA — 11.2.

Мы провели несколько длительных тестов графических процессоров, и система работала стабильно. Однако после некоторого простоя графического процессора система неоднократно падала.

Мы предполагаем, что ГпуПауэрМизерМоде должен быть установлен на 1, чтобы предотвратить сбои во время простоя графического процессора (предположение, подкрепленное другими отчетами пользователей, найденными в Интернете).

Единственный известный нам способ сделать это — запустить X (например, запустив gdm), а затем установить соответствующее значение через nvidia-настройки (Бег nvidia-настройки без X/gdm приводит к "Не удалось инициализировать сервер: не удалось подключиться: в подключении отказано."). Но при остановке X/gdm ГпуПауэрМизерМоде значение автоматически сбрасывается на 2. К сожалению, оставлять X/gdm работающим не вариант, поскольку это также приводит к нестабильности системы.

Итак, наша проблема выглядит следующим образом:

  1. ГП на холостом ходу + ГпуПауэрМизерМоде != 1 может привести к зависанию системы. ГпуПауэрМизерМоде можно установить только через nvidia-настройки подключен к работающему X/dm(?). Для постоянной установки значения 1 X/дм(?) необходимо продолжать работу.
  2. Запущенный X/gdm может вызвать сбой системы.

Верны ли наши предположения? / Другие люди также испытывают эти проблемы?

Как мы можем решить проблему зависания во время простоя GPU?

Рейтинг:1
флаг cz

Нет необходимости запускать сеанс графического интерфейса (или даже устанавливать его!) для изменения таких настроек; nvidia-настройки должен нормально работать из консоли фреймбуфера или даже в написанном вами сценарии, который запускается при запуске.

Проверьте, чтобы убедиться:

# nvidia-settings -q GpuPowerMizerMode

  Атрибут «GPUPowerMizerMode» (blacktemple:1[gpu:0]): 1.
    Допустимые значения для «GPUPowerMizerMode»: 0, 1 и 2.
    «GPUPowerMizerMode» может использовать следующие типы целей: GPU.

Для восьми графических процессоров просто напишите простой скрипт, например:

для n в $(seq 0 7); делать
    nvidia-settings -a "[gpu:$n]/GpuPowerMizerMode=1"
сделано

и запускайте его при запуске любым удобным для вас способом.


Я не могу сказать, связаны ли ваши сбои с GpuPowerMizerMode!=1. Если это так, то у вас, вероятно, есть какое-то неисправное оборудование, которое вы должны отследить и заменить.

user776206 avatar
флаг ar
Запуск nvidia-settings без запуска и использования X/gdm приводит к «Невозможно инициализировать сервер: не удалось подключиться: в соединении отказано».
Michael Hampton avatar
флаг cz
@ user776206 Хм, это неожиданно. Я пойду поиграю с ним чуть позже.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.