Рейтинг:1

nvidia-smi перестал работать после установки cuda-toolkit

флаг sa

TLDR

я пытаюсь получить nvidia-smi резервную копию, которая работала нормально, пока я не установил cuda-toolkit. Удаление cuda-toolkit не помогло. Как я могу восстановить nvidia-smi вывод?

Сбой NVIDIA-SMI, потому что он не может связаться с NVIDIA. Водитель. Убедитесь, что установлена ​​последняя версия драйвера NVIDIA и Бег.


Подробнее

У меня есть GEFORCE RTX 2070 на моем ноутбуке с Ubuntu 18.04, и я успешно установил его драйвер из официального файла запуска. NVIDIA-Linux-x86_64-470.63.01.run. Вот результат nvidia-smi из этой установки:

введите описание изображения здесь

Затем я установил cuda-toolkit из официального файла запуска. cuda_11.4.2_470.57.02_linux.run, убедившись, что отменить выбор установка драйвера. Вот окно терминала сразу после завершения установки:

введите описание изображения здесь

Сразу после того, как я сделал nvidia-smi, Я получил:

Сбой NVIDIA-SMI, потому что он не может связаться с NVIDIA. Водитель. Убедитесь, что установлена ​​последняя версия драйвера NVIDIA и Бег.

Поскольку это была установка cuda-toolkit, которая предположительно "сломалась" nvidia-smi, я удалил cuda-toolkit (запустив cuda-деинсталлятор нашел в /USR/местные/куда-11.4/бин, как указано в сгенерированном тексте после установки).

К сожалению, это не помогает и nvidia-smi все еще поврежден. Причина, по которой я устанавливаю из официальных файлов запуска NVIDIA, заключается в том, что ранее у меня были проблемы с установкой драйвера из репозиториев Ubuntu, но я мог заставить его работать с официальным драйвером. Поэтому я решил попробовать то же самое с cuda-toolkit.

Как я могу вернуться nvidia-smi?

Выводы некоторых команд, если применимо

  • какой nvidia-smi : /usr/bin/nvidia-smi
  • мокутил --sb-состояние : SecureBoot отключен
  • nvidia-настройки :
    • ОШИБКА: Драйвер NVIDIA не загружен
    • ОШИБКА: невозможно загрузить информацию из любой доступной системы
  • лс /sys/прошивка/efi/ :
    • config_table efivars esrt fw_platform_size fw_vendor runtime-map systab vars
  • lspci -k | grep -EA2 'VGA|3D' :

00:02.0 VGA-совместимый контроллер: Intel Corporation CometLake-H GT2 [Графика UHD] (версия 05)
Подсистема: Micro-Star International Co., Ltd. [MSI] Устройство 12ae
Используемый драйвер ядра: i915

01:00.0 VGA-совместимый контроллер: NVIDIA Corporation TU106M [GeForce RTX 2070 Mobile / > Max-Q Refresh] (rev a1)
Подсистема: Micro-Star International Co., Ltd. [MSI] Устройство 12ae
Модули ядра: nvidiafb, nouveau

  • кот /etc/modprobe.d/blacklist-nouveau.conf :

черный список модерн
черный список vga16b
черный список
черный список
черный список
черный список amd76_edac
псевдоним nouveau off
псевдоним lbm-nouveau off
параметры модерна modeset=0

  • кот /прок/версия :

    • Версия Linux 5.4.0-84-generic (buildd@lcy01-amd64-007) (версия gcc 7.5.0 (Ubuntu 7.5.0-3ubuntu1~18.04)) #94~18.04.1-Ubuntu SMP, четверг, 26 августа, 23:17 :46 UTC 2021
  • sudo lshw -c видео : (дисплей NVIDIA "невостребованный", но вот как должен быть)

введите описание изображения здесь

  • статус dkms : нет выхода
  • lsmod | grep нвидиа :
    • i2c_nvidia_gpu 16384 0
  • эхо $XDG_SESSION_TYPE : х11
  • где нвидиа :
    • nvidia: /usr/lib/x86_64-linux-gnu/nvidia /usr/lib/nvidia /usr/share/nvidia /usr/src/nvidia-470.63.01/nvidia
  • grep nvidia /etc/modprobe.d/* /lib/modprobe.d/*:

/etc/modprobe.d/blacklist-framebuffer.conf:черный список nvidiafb
/etc/modprobe.d/blacklist-nouveau.conf:черный список nvidiafb
/etc/modprobe.d/nvidia-installer-disable-nouveau.conf:# сгенерировано nvidia-installer
/lib/modprobe.d/nvidia-runtimepm.conf:options nvidia "NVreg_DynamicPowerManagement=0x02"

Сообщения/вопросы, которые я уже просмотрел:

флаг cc
Ваша система /usr/bin/gcc --version должна быть 9.3.0, и если вы изменили свой PATH, возможно, gcc --version может быть каким-то другим, но не 7.5. При изменении версии gcc для CUDA не изменяйте системные настройки по умолчанию (никогда не используйте /etc/alternatives для gcc!!!!). Управляйте gcc CUDA через cuda/bin, имеющие ссылки (или исполняемые файлы) на требуемую версию. Номер драйвера Nvidia в стандартных репозиториях — 470.63.01, поэтому я бы использовал его после очистки всех существующих пакетов Nvidia.
MorganStark47 avatar
флаг sa
Итак, `gcc --version` действительно был 7.5.Для обновления до версии 9 (которая уже была установлена) я использовал «sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-9 9» и «sudo update-alternatives --install /usr/bin». /g++ g++ /usr/bin/g++-9 9` так что теперь `/usr/bin/gcc --version` и `/usr/bin/g++ --version` возвращают 9.4.0. Однако ошибка с nvidia-smi остается. Драйвер требует переустановки? Установка драйвера — не быстрый и легкий процесс, по крайней мере, для меня, так что я бы делал это только в случае необходимости.
флаг cc
Мое замешательство, ваше ядро ​​​​навело меня на мысль, что 20.04 с gcc 9.3 по умолчанию. Я добавил теги HWE и 18.04. Я не использую HWE, так что не уверен, как это работает, требуя одну версию компилятора по умолчанию для ядра/модулей (9.3) и другую для остальной части системы (7.5?). Не уверен, откуда взялась ваша версия gcc 9.4, если только она не для HWE для 21.04 (но тогда почему не обновилось ядро?). Я полагаю, что можно было бы использовать альтернативы обновления 9.3 для gcc, --перенастроить пакет nvidia-driver-470 для перекомпиляции, а затем вернуться к gcc 7.5 для остальной части системы.
MorganStark47 avatar
флаг sa
Спасибо за добавление тегов. «перенастройте nvidia-driver-470 для перекомпиляции» — хм, поскольку «nvidia-settings» не работает (вывод включен в вопрос), я не уверен, как бы я это сделал.
Рейтинг:1
флаг sa

Я очистил все вещи nvidia, а затем попытался автоустановка драйверов sudo ubuntu с последующим судо перезагрузка после которого nvidia-smi работает отлично.

введите описание изображения здесь

Поэтому я думаю, что решение заключалось в переустановке драйверов NVIDIA.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.