Рейтинг:0

Черный экран после установки CUDA, UBUNTU 20.04

флаг us

Привет, кто-нибудь может мне помочь? У меня черный экран после установки драйверов nvidia cuda.

UBUNTU 20.04, ядро ​​5.8.0-55-универсальное

NVIDIA-СМИ 465.27
Версия драйвера: 465.27
Версия CUDA: 11.3

20 ГБ оперативной памяти, 2 ГБ Nvidia mx150, Intel Core i7-8550U.

Я также получаю это сообщение при попытке запустить модель: «RuntimeError: CUDA не хватает памяти. Попытка выделить 20,00 МБ (GPU 0; общая емкость 1,96 ГБ; уже выделено 2,00 МБ; 9,50 МБ свободно; всего зарезервировано 4,00 МБ). от PyTorch) "

Бит из файла журнала:

[29319.635864] NVRM: процедура проверки NVIDIA не удалась для 1 устройства (устройств).

[29319.000029] NVRM: Ни одно из устройств NVIDIA не было инициализировано.

[29319.002993] nvidia-nvlink: отмена регистрации ядра Nvlink, основной номер устройства 234

[29319.635059] nvidia-nvlink: инициализируется Nvlink Core, основной номер устройства 234

[29319.635823] NVRM: это 64-битный BAR-файл, отображаемый системой выше 4 ГБ.

[29319.635823] NVRM: BIOS или ядро ​​Linux, но мост PCI

[29319.635823] NVRM: сразу перед этим графическим процессором не определяет черный экран после
установка-драйвера-nvidia-ubuntu/109312

[29319.635823] NVRM: соответствующее окно памяти с предварительной выборкой.
[29319.635824] NVRM: это может быть связано с известной ошибкой ядра Linux. Пожалуйста

[29319.635824] NVRM: дополнительные сведения см. в разделе README, посвященном 64-разрядным BAR.

[29319.635824] NVRM: информация.

******************************************************* ********

dmesg |grep -i мост
[ 0.303414] PCI: использование окон хост-моста из ACPI; при необходимости используйте "pci=nocrs" и сообщите об ошибке
[0.339965] ACPI: корневой мост PCI [PCI0] (домен 0000 [шина 00-fe])
[ 0.347519] Хост-мост PCI к шине 0000:00
[ 0.368977] pci 0000:00:1c.0: Мост PCI к [шине 01]
[0.368980] pci 0000:00:1c.0: окно моста [io 0x4000-0x4fff]
[0.368984] pci 0000:00:1c.0: окно моста [mem 0x93000000-0x93ffffff]
[0.368989] pci 0000:00:1c.0: окно моста [mem 0x80000000-0x91ffffff 64bit pref]
[ 0.369455] pci 0000:00:1c.4: мост PCI к [шине 02]
[0.369458] pci 0000:00:1c.4: окно моста [io 0x3000-0x3fff]
[0.369461] pci 0000:00:1c.4: окно моста [mem 0x94100000-0x941fffff]
[0.374209] pci 0000:00:1c.5: мост PCI к [шине 03]
[0.374214] pci 0000:00:1c.5: окно моста [mem 0x94000000-0x940fffff]
[ 0.379452] pci 0000:00:02.0: vgaarb: управление мостом возможно
[ 0.441100] pci 0000:01:00.0: не могу запросить BAR 6 [mem 0xfff80000-0xffffffff pref]: нет совместимого окна моста
[0.441116] pci 0000:00:1c.0: мост PCI к [шине 01]
[0.441119] pci 0000:00:1c.0: окно моста [io 0x4000-0x4fff]
[0.441124] pci 0000:00:1c.0: окно моста [mem 0x93000000-0x93ffffff]
[0.441127] pci 0000:00:1c.0: окно моста [mem 0x80000000-0x91ffffff 64bit pref]
[0.441133] pci 0000:00:1c.4: мост PCI к [шине 02]
[0.441135] pci 0000:00:1c.4: окно моста [io 0x3000-0x3fff]
[0.441139] pci 0000:00:1c.4: окно моста [mem 0x94100000-0x941fffff]
[ 0.441146] pci 0000:00:1c.5: мост PCI к [шине 03]
[0.441150] pci 0000:00:1c.5: окно моста [mem 0x94000000-0x940fffff]
[ 8.398806] мост: фильтрация через arp/ip/ip6tables больше не доступна по умолчанию. Обновите свои скрипты, чтобы загружать br_netfilter, если вам это нужно.


****************
dmesg |grep БАР
[ 0.348927] pci 0000:00:02.0: BAR 2: присвоен efifb
[ 0.441100] pci 0000:01:00.0: не могу запросить BAR 6 [mem 0xfff80000-0xffffffff pref]: нет совместимого окна моста
[0.441113] pci 0000:01:00.0: BAR 6: нет места для [размер памяти 0x00080000 pref]
[0.441114] pci 0000:01:00.0: BAR 6: не удалось назначить [размер памяти 0x00080000 pref]

*************

sudo lshw -c память

*-память НЕВОСТРОЕНА
       описание: Контроллер памяти
       продукт: Sunrise Point-LP ЧВК
       производитель: корпорация Intel
       физический идентификатор: 1f.2
       информация о шине: pci@0000:00:1f.2
       версия: 21
       ширина: 32 бита
       часы: 33 МГц (30,3 нс)
       возможности: bus_master
       конфигурация: задержка=0
       ресурсы: память:942ac000-942affff
флаг cc
Сканировали ли вы dmesg |grep -i bridge на наличие каких-либо сообщений об использовании pci=nocrs, таких как PCI: Using host bridge windows from ACPI; при необходимости использовать "pci=nocrs" и сообщить об ошибке? У вас могут возникнуть проблемы со слишком большим объемом памяти видеокарты и нехваткой места в нижних 4 ГБ системной памяти для использования PCI (проблема TOLUD). У вас работали драйверы Nvidia перед попыткой установить CUDA? Какое у вас железо и сколько памяти?
флаг cc
Пожалуйста, добавьте информацию в свой исходный пост, чтобы вы могли использовать теги кода и получить разумное форматирование для удобочитаемости. Назначали ли сообщения PCI когда-либо успешно BAR6 (например, в [mem 0xf1080000-0xf10fffff pref], как это делает моя система)?
TonyKutunio avatar
флаг us
Я действительно не знаю, что это значит: «Сообщения PCI когда-либо успешно назначали BAR6 (например, может быть в [mem 0xf1080000-0xf10fffff pref], как это делает моя система)»
флаг cc
В одном из ваших комментариев была ошибка: «... не могу претендовать на BAR 6 [mem 0xfff80000-0xffffffff pref]: нет совместимого окна моста», но я не видел более поздних сообщений о BAR 6 в том, что вы опубликовали. Попробуйте dmesg |grep BAR и посмотрите, все ли BAR в конечном итоге будут назначены.
TonyKutunio avatar
флаг us
О да, я вижу это... вывод dmesg |grep BAR говорит: BAR 6: нет места для [mem size 0x00080000 pref] BAR 6: не удалось назначить [размер памяти 0x00080000 pref]
флаг cc
Вот возможное решение: https://www.linuxquestions.org/questions/linux-kernel-70/kernel-fails-to-assign-memory-to-pcie-device-4175487043/
TonyKutunio avatar
флаг us
почему-то написано: bash: /sys/bus/pci/devices/0000:00:01.1/remove: Нет такого файла или каталога bash: /sys/bus/pci/rescan: Отказано в доступе
TonyKutunio avatar
флаг us
Это способ выполнить эту команду «sudo echo 1 > /sys/bus/pci/devices/0000\:00\:1c.5/remove " Если вывод lspci: 00:1c.5 Мост PCI: Intel Corporation Sunrise Point-LP Корневой порт PCI Express №6 (версия f1)
флаг cc
Да, эта команда выглядит нормально. Может у вашей модели просто закончилась память? Я устанавливаю нужный мне драйвер Nvidia (обычно последний из стандартных репозиториев) и устанавливаю CUDA из файла .run, пропуская предложение драйверов Nvidia. Избегает многих проблем при обновлении системы/видео.
TonyKutunio avatar
флаг us
похоже, у меня нет проблемы с черным экраном после приведенных выше команд... Но все еще получаю эту ошибку: RuntimeError: CUDA out of memory.. Не знаю, действительно ли у модели закончилась память
TonyKutunio avatar
флаг us
думал, что черный экран и нехватка памяти связаны

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.