У нас есть новый сервер Supermicro AS-4124GS-TNR, оснащенный восемью NVIDIA RTX A6000. ОС — Ubuntu 20.04.2, версия драйвера NVIDIA — 460.73.01 (драйвер Nouveau не используется), версия CUDA — 11.2.
Мы провели несколько длительных тестов графических процессоров, и система работала стабильно. Однако после некоторого простоя графического процессора система неоднократно падала.
Мы предполагаем, что ГпуПауэрМизерМоде
должен быть установлен на 1, чтобы предотвратить сбои во время простоя графического процессора (предположение, подкрепленное другими отчетами пользователей, найденными в Интернете).
Единственный известный нам способ сделать это — запустить X (например, запустив gdm), а затем установить соответствующее значение через nvidia-настройки
(Бег nvidia-настройки
без X/gdm приводит к "Не удалось инициализировать сервер: не удалось подключиться: в подключении отказано."). Но при остановке X/gdm ГпуПауэрМизерМоде
значение автоматически сбрасывается на 2. К сожалению, оставлять X/gdm работающим не вариант, поскольку это также приводит к нестабильности системы.
Итак, наша проблема выглядит следующим образом:
- ГП на холостом ходу +
ГпуПауэрМизерМоде
!= 1 может привести к зависанию системы. ГпуПауэрМизерМоде
можно установить только через nvidia-настройки
подключен к работающему X/dm(?). Для постоянной установки значения 1 X/дм(?) необходимо продолжать работу.
- Запущенный X/gdm может вызвать сбой системы.
Верны ли наши предположения? / Другие люди также испытывают эти проблемы?
Как мы можем решить проблему зависания во время простоя GPU?