Рейтинг:1

Процессор нагревается на холостом ходу при использовании параметров загрузки grub

флаг pl

Итак, мой ноутбук случайно «зависает» (система полностью не отвечает, мышь зависла, часы не идут вперед, никакие команды клавиатуры не действуют, и единственный способ выйти из этого — жесткая перезагрузка с помощью физической кнопки питания), от от нескольких минут до нескольких часов использования моего компьютера.

Поэтому, естественно, я исследовал проблему и попытался найти решение.Посмотрев журнал ядра, я увидел, что последними зарегистрированными событиями перед зависанием являются несколько «аппаратных ошибок»:

ядро: mce: [аппаратная ошибка]: зарегистрированы события проверки компьютера

Итак, я ищу его и пытаюсь найти решения. И я сделал, я нашел это публиковать. Что в основном говорит мне добавить несколько параметров загрузки. И это действительно решает проблему, с тех пор у меня больше не регистрировалось аппаратных ошибок или случайных зависаний. Это параметры загрузки:

noapic pci=assign-buses apicmaintimer idle=poll reboot=холодный, жесткий

Но проблема в том, что теперь мой ноутбук работает на холостом ходу при более высокой температуре при использовании этих параметров загрузки. Около 70 градусов по Цельсию, вместо 35-40. Теперь, очевидно, я проверил системный монитор, чтобы увидеть, есть ли что-нибудь, занимающее загрузку процессора, но ничего. Он использует от 0 до 3% загрузки ЦП на все 4 потока, ничего необычного.

И я знаю, что это параметры загрузки, вызывающие эту проблему, потому что я пытался удалить их, и после перезагрузки вентиляторы не вращаются так громко и работают на холостом ходу при нормальной температуре. Но аппаратные ошибки вернулись, как и случайные зависания.

Я новичок в Linux, поэтому я буквально понятия не имею, что делают эти параметры загрузки. Может ли кто-нибудь опытный сказать мне, что они делают, и почему они заставляют мой процессор простаивать так сильно?

РЕДАКТИРОВАТЬ № 1

Итак, благодаря помощи матиго и Дуга мне сказали, что бездействие=опрос Параметр отключает бездействующую систему для ЦП, что, очевидно, увеличивает температуру ЦП и создает больше отходящего тепла.

При удалении этого параметра загрузки аппаратные ошибки возвращаются.

Итак, мои зависания и аппаратные ошибки, похоже, как-то связаны с тем, как ЦП переключается между состояниями простоя.

Мой процессор является Intel Core i7-7500U

Это результат запуска грэп . /sys/устройства/система/процессор/процессор0/процессор/состояние*/имя:

/sys/devices/system/cpu/cpu0/cpuidle/state0/имя:ОПРОС
/sys/устройства/система/процессор/процессор0/процессор/состояние1/имя:C1
/sys/устройства/система/процессор/процессор0/процессор/состояние2/имя:C1E
/sys/устройства/система/процессор/процессор0/процессор/state3/имя:C3
/sys/устройства/система/процессор/процессор0/процессор/state4/имя:C6
/sys/devices/system/cpu/cpu0/cpuidle/state5/имя: C7s
/sys/устройства/система/процессор/процессор0/процессор/state6/имя:C8
/sys/устройства/система/процессор/процессор0/процессор/state7/имя:C9
/sys/устройства/система/процессор/процессор0/процессор/state8/имя:C10

Итак, в основном мне нужна помощь, чтобы избавиться от этих аппаратных ошибок и сбоев, не отключая полностью систему бездействия ЦП, если это возможно.

флаг in
Какую версию Ubuntu вы используете? У меня была похожая проблема на Lenovo W541 с 16.04 и 18.04. Обновление до 20.04 снизило температуру бездействия на 30 градусов, а также улучшило температуру SSD.
B.Tibell avatar
флаг pl
@matigo Я использую Zorin OS 16 на основе Ubuntu 20.04.3, и у меня есть HP 17x115dx.Я пробовал несколько дистрибутивов на основе Ubuntu, но у меня была проблема с зависанием со всеми из них, включая Ubuntu, Lubuntu, Zorin OS, Linux Mint и Pop OS.
флаг in
Zorin здесь очень не по теме, но эти параметры загрузки эффективно убивают способность вашей системы управлять энергопотреблением в режиме ожидания. Вы можете [прочитать это](https://www.kernel.org/doc/html/v5.0/admin-guide/pm/cpuidle.html) и решить, стоят ли того параметры загрузки...
B.Tibell avatar
флаг pl
Хорошо.. Спасибо, есть идеи, что может быть причиной аппаратных ошибок и почему эти параметры загрузки помогают их остановить?
Doug Smythies avatar
флаг gn
Пожалуйста, отредактируйте свой вопрос и добавьте названия ваших состояний бездействия. Сделайте `grep . /sys/devices/system/cpu/cpu0/cpuidle/state*/имя`. Также добавьте марку и модель процессора.
Рейтинг:0
флаг gn

Загрузочный параметр бездействие=опрос в основном отключает систему бездействия, отображая бездействие как бездействующие циклы вращения. Итак, да, вы ожидаете гораздо больше отработанного тепла, потому что процессоры никогда не переходят в спящий режим.

Вот пример с моего тестового сервера с использованием турбостата:

doug@s19:~$ sudo turbostat --Summary --quiet --show Busy%,Bzy_MHz,IRQ,PkgWatt,PkgTmp,RAMWatt,GFXWatt,CorWatt --interval 15
Busy% Bzy_MHz IRQ PkgTmp PkgWatt CorWatt GFXWatt RAMWatt
0,01 938 558 36 1,34 0,68 0,00 0,89
0,02 800 455 36 1,33 0,67 0,00 0,89 <<< Все состояния бездействия включены
60,14 4799 109298 47 29,48 28,82 0,00 0,89 <<< переходная выборка
99,76 4800 180297 47 47,24 46,59 0,00 0,89 <<< Все состояния ожидания отключены, кроме опроса.
99,76 4800 180311 49 47,65 46,99 0,00 0,89
99,76 4800 180305 49 47,82 47,17 0,00 0,89

Примечание. Драйвер масштабирования частоты процессора intel_pstate «видит» процессоры как занятые, а top — нет:

топ - 19:23:43 вверх 7:14, 3 пользователя, средняя загрузка: 0.00, 0.00, 0.00
Задания: всего 214, 1 бег, 213 сон, 0 остановлено, 0 зомби
%Cpu0: 0,0 мкс, 0,0 си, 0,0 ни, 100,0 id, 0,0 ва, 0,0 привет, 0,0 си, 0,0 ст
%Cpu1 : 0,0 мкс, 0,0 си, 0,0 ни, 100,0 ид, 0,0 ва, 0,0 привет, 0,0 си, 0,0 ст
%Cpu2 : 0,0 мкс, 0,0 си, 0,0 ни, 100,0 ид, 0,0 ва, 0,0 привет, 0,0 си, 0,0 ст
%Cpu3 : 0,0 мкс, 0,0 си, 0,0 ни, 100,0 ид, 0,0 ва, 0,0 привет, 0,0 си, 0,0 ст
%Cpu4 : 0,0 мкс, 0,0 си, 0,0 ни, 100,0 ид, 0,0 ва, 0,0 привет, 0,0 си, 0,0 ст
%Cpu5 : 0,0 мкс, 0,0 си, 0,0 ни, 100,0 ид, 0,0 ва, 0,0 привет, 0,0 си, 0,0 ст
%Cpu6 : 0,0 мкс, 0,0 си, 0,0 ни, 100,0 ид, 0,0 ва, 0,0 привет, 0,0 си, 0,0 ст
%Cpu7 : 0,0 мкс, 0,0 си, 0,0 ни, 100,0 ид, 0,0 ва, 0,0 привет, 0,0 си, 0,0 ст
%Cpu8 : 0,0 мкс, 0,0 си, 0,0 ни, 100,0 ид, 0,0 ва, 0,0 привет, 0,0 си, 0,0 ст
%Cpu9 : 0,0 мкс, 0,0 си, 0,0 ни, 100,0 ид, 0,0 ва, 0,0 привет, 0,0 си, 0,0 ст
%Cpu10 : 0,0 мкс, 0,0 си, 0,0 ни, 100,0 ид, 0,0 ва, 0,0 привет, 0,0 си, 0,0 ст
%Cpu11 : 0,0 мкс, 0,0 си, 0,0 ни, 100,0 ид, 0,0 ва, 0,0 привет, 0,0 си, 0,0 ст
MiB Mem: всего 31936,7, 31137,0 бесплатно, 312,3 использовано, 487,5 бафф/кэш
Обмен МиБ: всего 2048,0, 2048,0 бесплатно, 0,0 использовано. 31227.9 доступная память
B.Tibell avatar
флаг pl
После удаления параметра `idle=poll` снова появляются аппаратные ошибки и, предположительно, случайные зависания. Что именно означают эти аппаратные ошибки? И есть ли другой способ избавиться от них, не отключая неработающую систему?
Doug Smythies avatar
флаг gn
Сколько у вас состояний бездействия? Сделайте `grep . /sys/devices/system/cpu/cpu0/cpuidle/state*/disable`. Затем начните отключать их по одному, чтобы увидеть, исчезнут ли MCE. Сделайте (скажем, самым глубоким было 7) `echo 1 | sudo tee /sys/devices/system/cpu/cpu*/cpuidle/state7/disable`. Точное значение MCE может быть трудно определить. Какой производитель и модель процессора?
B.Tibell avatar
флаг pl
У меня есть 8 состояний простоя. Процессор — Intel Core i7-7500U.
Doug Smythies avatar
флаг gn
Я бы попробовал: отключить состояние простоя 2; Если это не поможет, отключите загрузочный параметр HWP (intel_pstate=no_hwp).
B.Tibell avatar
флаг pl
Пробовал оба, ошибки все равно появляются. Я заметил, что ошибки, как правило, появляются ПОСЛЕ того, как я останавливаю задачу с интенсивным использованием ЦП. И это также совпадает с тем, когда у меня происходили зависания, например, сразу после выхода из игры или другой ресурсоемкой задачи.
B.Tibell avatar
флаг pl
Поэтому я проверил, помогло ли отключение состояния простоя или добавление параметра загрузки (конечно, после перезагрузки), запустив `stress --cpu 4` на несколько минут, а затем завершив его, но после проверки файла журнала появляется аппаратная ошибка mce. сразу после окончания стресс-теста.
Doug Smythies avatar
флаг gn
Поэкспериментируйте с отключением состояний простоя. Например, все они с какого-то уровня и глубже.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.