Я использую 2080Ti, вот что я сделал:
1: Я установил чистую версию xubuntu 20.04 с нуля.
2: я заметил, что драйвером по умолчанию является драйвер xorg, поэтому я установил nvidia-driver-470 из
программное обеспечение и обновление> дополнительный драйвер> использование драйвера NVIDIA
метапакет от nvidia-driver-470 (собственный, проверенный)
, и установка прошла успешно, я увидел красивый отпечаток таблицы из команды nvidia -smi.
3: затем я понял, что мне также нужна CUDA 11.3, поэтому я просто выполнил следующие команды в соответствии с официальным сайтом CUDA:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda-repo-ubuntu2004-11-3-local_11.3.0-465.19.01-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-11-3-local_11.3.0-465.19.01-1_amd64.deb
sudo apt-key добавить /var/cuda-repo-ubuntu2004-11-3-local/7fa2af80.pub
sudo apt-получить обновление
sudo apt-get -y установить cuda
И оттуда все ломается, потому что я потерял разрешение экрана до 800 * 600 после перезагрузки. И nvidia -smi больше не выдавала ту красивую таблицу. Сообщение об ошибке представляет собой двухстрочное предупреждение, которое я забыл сохранить.
4: Я понял, что не удалял nvidia перед установкой CUDA, потому что CUDA включала драйвер nvidia. поэтому я сделал следующее:
sudo apt-get --purge -y удалить '*nvidia*'
sudo apt-get --purge -y удалить '*cuda*'
sudo apt-получить обновление
sudo apt-получить обновление
sudo apt autoremove -y
после перезагрузки вывод nvidia -smi является:
nvidia: команда не найдена
5: похоже, очистка прошла успешно, и затем я снова сделал шаг 3. Но не работает.
6: затем я снова выполнил шаг 4 очистки, а затем попытался использовать ppa вместо dpkg для повторной установки CUDA:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /"
sudo apt-получить обновление
sudo apt-get -y установить cuda
не работает. не важно nvidia -smi или же nvcc-V. показывая команда не найдена.
7: Затем я, когда я перезагружаюсь, я увидел, что выбор безопасной загрузки стал убунту линукс 5.14-оемРаньше это было универсально, теперь это oem. Я не знаю, когда именно произошло это изменение. Я понял, что, возможно, загрузочное изображение linux повреждено. Я использовал более старую версию 5.10 для загрузки, а затем шаг 4-шаг 6 установил CUDA. Результаты: не работает.
8: Затем я снова очистил (шаг 4) и обновил свой Linux с 20.04 до 20.10. а затем чистка снова установила вещи. И не работает.
У меня действительно закончились методы. Итак, мой вопрос:
1: Если я переустановлю xubuntu 20.04 и использую шаг 3 для чистой установки CUDA, это сработает? Я думаю да.
2: Если я переустанавливаю систему, должен ли я использовать ppa (шаг 6) для установки CUDA или использовать для этого dpkg (шаг 3), что лучше? Учитывая, что метод dpkg может ограничить версию до 11.3, можно не беспокоиться о нежелательных обновлениях. Но я слышал, что могу использовать команду sudo apt-mark удерживать <имя-пакета> чтобы предотвратить его обновление, чего я никогда не пробовал.
3: Я действительно не хочу переустанавливать систему, как заставить CUDA и драйвер работать в текущих условиях?
4: дальнейшее размышление, поскольку CUDA - это только вещь HPC и связана только с разработкой для меня, должен ли я только установить драйвер nvidia на свою машину, а также установить CUDA в докер и позволить ему работать там? Может ли он работать без CUDA, установленного на реальной машине?
5: дальше думаю, как меню загрузки могло стать linux 5.14 -oem? что nvidia сделала с ядром безвозвратно?
Большое спасибо!