Я весь день пытался заставить этот (v100) GPU работать на новой виртуальной машине Ubuntu. Я пытался установить драйверы и перезагрузиться, а также очистить/удалить все, что связано с nvidia, но ничего из этого не работает.
В частности, я специально запустил это:
удачное обновление;
apt install build-esential;
sudo add-apt-repository ppa:графические драйверы
sudo apt установить ubuntu-драйверы-общие
ubuntu-драйверы устройств
sudo apt-get установить nvidia-driver-460
sudo перезагрузить сейчас
Затем иногда кажется, что nvidia-smi работает (на момент написания этого вопроса это было не так, поэтому я не смог скопировать и вставить то, что сказано, когда он работает), но когда он не работает, он говорит следующее:
(синтез) miranda9@miranda9:~$ nvidia-smi
Не удалось определить дескриптор устройства для графического процессора 0000:00:06.0: неизвестная ошибка
любая помощь приветствуется.
Примечание. У меня также нет доступа к файлу vmx виртуальных машин, поэтому этот вопрос и ответы для меня бесполезны/бессмысленны: https://forums.developer.nvidia.com/t/nvidia-smi-reports-unable-to-determine-the-device-handle-for-gpu/46835
Кроме того, я попытался удалить все из nivida и переустановить его с помощью:
sudo apt-get --purge удалить "*nvidia*"
sudo /usr/bin/nvidia-удалить
тогда
удачное обновление;
apt install build-esential;
sudo add-apt-repository ppa:графические драйверы
sudo apt установить ubuntu-драйверы-общие
ubuntu-драйверы устройств
sudo apt-get установить nvidia-driver-460
sudo перезагрузить сейчас
но это не похоже на работу
Дополнительная информация, если это поможет:
(синтез) miranda9@miranda9:~$ lsb_release -a
Нет доступных модулей LSB.
Идентификатор дистрибьютора: Ubuntu
Описание: Ubuntu 20.04.2 LTS
Релиз: 20.04
Кодовое название: фокальный
также:
(синтез) miranda9@miranda9:~$ питон
Python 3.9.5 (по умолчанию, 4 июня 2021 г., 12:28:51)
[GCC 7.5.0] :: Anaconda, Inc. для Linux
Введите «помощь», «авторское право», «кредиты» или «лицензия» для получения дополнительной информации.
>>> импортный факел
>>> torch.cuda.is_available()
/home/miranda9/miniconda3/envs/synchronous/lib/python3.9/site-packages/torch/cuda/__init__.py:52: UserWarning: инициализация CUDA: непредвиденная ошибка от cudaGetDeviceCount(). Вы запускали какие-то функции cuda перед вызовом NumCudaDevices(), которые могли уже вызвать ошибку? Ошибка 101: недопустимый порядковый номер устройства (вызвано внутренним образом в /opt/conda/conda-bld/pytorch_1623448238472/work/c10/cuda/CUDAFunctions.cpp:115.)
вернуть факел._C._cuda_getDeviceCount() > 0
ЛОЖЬ
По запросу комментария:
# лспци
00:00.0 Хост-мост: Intel Corporation 440FX - 82441FX PMC [Natoma] (версия 02)
00:01.0 Мост ISA: Intel Corporation 82371SB PIIX3 ISA [Natoma/Triton II]
00:01.1 Интерфейс IDE: Intel Corporation 82371SB PIIX3 IDE [Natoma/Triton II]
00:01.2 USB-контроллер: Intel Corporation 82371SB PIIX3 USB [Natoma/Triton II] (версия 01)
00:01.3 Мост: Intel Corporation 82371AB/EB/MB PIIX4 ACPI (версия 01)
00:02.0 VGA-совместимый контроллер: Cirrus Logic GD 5446
00:03.0 Контроллер хранилища SCSI: XenSource, Inc. Xen Platform Device (версия 01)
00:05.0 Системное периферийное устройство: XenSource, Inc. Citrix XenServer PCI Device for Windows Update (версия 01)
00:06.0 3D-контроллер: NVIDIA Corporation GV100GL [Tesla V100 PCIe 16GB] (rev a1)
другой вм:
$ lspci
00:00.0 Хост-мост: Intel Corporation 440FX - 82441FX PMC [Natoma] (версия 02)
00:01.0 Мост ISA: Intel Corporation 82371SB PIIX3 ISA [Natoma/Triton II]
00:01.1 Интерфейс IDE: Intel Corporation 82371SB PIIX3 IDE [Natoma/Triton II]
00:01.2 USB-контроллер: Intel Corporation 82371SB PIIX3 USB [Natoma/Triton II] (версия 01)
00:01.3 Мост: Intel Corporation 82371AB/EB/MB PIIX4 ACPI (версия 01)
00:02.0 VGA-совместимый контроллер: Cirrus Logic GD 5446
00:03.0 Контроллер хранилища SCSI: XenSource, Inc. Xen Platform Device (версия 01)
00:05.0 Системное периферийное устройство: XenSource, Inc. Citrix XenServer PCI Device for Windows Update (версия 01)
00:06.0 3D-контроллер: NVIDIA Corporation GV100GL [Tesla V100 PCIe 16GB] (rev a1)
Ресурсы, которые я искал для помощи: