Рейтинг:1

DELL R320, Xeon E5-2450 v1, Oracle Linux 8 помечает источник синхронизации «tsc» как нестабильный, случайные сбои при нагрузке

флаг cn

недавно приобрел б/у Делл Р320 с Xeon E5-2450 v1, все прошивки обновляются до последних версий с помощью Контроллер жизненного цикла. При загрузке dmesg сообщает:

microcode: микрокод рано обновлен до версии 0x71a, дата = 2020-03-24 [ 12.384040] clocksource: сторожевой таймер на CPU9: пометка clocksource 'tsc' как нестабильная из-за слишком большого перекоса: [  
12.395572] источник часов: 'hpet' wd_now: 3b1bb82 wd_last: 2e247ff маска: ffffffffff [ 12.413476] источник часов: 'tsc' cs_now: 1c62267fd4b cs_last: 1c30b8dcf7f маска: ffffffffffffffffdog [12.425567]
12.431666] TSC обнаружил нестабильную работу после загрузки, скорее всего, из-за поломки BIOS. Используйте «tsc = нестабильный».

Тогда, если я побегу phoronix-test-suite стресс-бег стресс-нг система после ок. через минуту перестал отвечать.

Во время теста я вижу события сторожевого таймера от сетевого адаптера:

[705.412997] NETDEV WATCHDOG: eno1 (tg3): время ожидания очереди передачи 0 истекло
[705.412997] ПРЕДУПРЕЖДЕНИЕ: ЦП: 9 PID: 6812 в сети/sched/sch_generic.c:473 dev_watchdog+0x27d/0x281
[  705.412997] Modules linked in: xt_CHECKSUM ipt_REJECT nf_nat_tftp nft_objref nf_conntrack_tftp nft_fib_inet nft_fib_ipv4 nft_fib_ipv6 nft_fib nft_reject_inet nf_reject_ipv4 nf_reject_ipv6 nft_reject nft_ct nf_tables_set tun rfkill scsi_transport_iscsi ip_set xt_conntrack xt_multiport xt_nat xt_addrtype xt_mark xt_MASQUERADE nft_counter xt_comment nft_compat nft_chain_nat nf_nat nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 veth sunrpc iTCO_wdt intel_rapl_msr iTCO_vendor_support dcdbas intel_rapl_common sb_edac x86_pkg_temp_thermal intel_powerclamp coretemp kvm_intel vfat fat kvm irqbypass crct10dif_pclmul crc32_pclmul mgag200 ghash_clmulni_intel drm_vram_helper aesni_intel ttm crypto_simd cryptd glue_helper drm_kms_helper pcspkr drm syscopyarea sysfillrect sysimgblt fb_sys_fops lpc_ich i2c_algo_bit zfs(POE) joydev zunicode(POE) zzstd(OE) zlua(OE) mei_me zavl(POE) mei icp( POE) zcommon(POE) znvpair(POE) ipmi_ssif spl(OE) ioatdma dca ipmi_si ipmi_devintf ipmi_msghandler acpi_power_meter
[705.412997] sch_fq_codel ip_tables xfs libcrc32c sd_mod sg ahci libahci libata mpt3sas tg3 raid_class scsi_transport_sas wmi предохранитель
[ 705.412997] CPU: 9 PID: 6812 Comm: stress-ng Kdump:loaded Tainted: P OE 5.4.17-2136.300.7.el8uek.x86_64 #2
[705.412997] Название оборудования: Dell Inc. PowerEdge R320/0KM5PX, BIOS 2.4.2 29.01.2015
[705.412997] RIP: 0010:dev_watchdog+0x27d/0x281
[ 705.412997] Код: 48 85 c0 75 e6 eb a0 4c 89 e7 c6 05 9b 59 17 01 01 e8 c7 a9 fa ff 89 d9 4c 89 e6 48 c7 c7 68 3b 53 ac 48 89 c2 e8 be f1 82 ff <0f> 0b eb 82 0f 1f 44 00 00 66 2e 0f 1f 84 00 00 00 00 00 66 66 66
[705.412997] RSP: 0000:ffffac6d003d0e50 EFLAGS: 00010282
[ 705.412997] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 00000000000000006
[ 705.412997] RDX: 0000000000000007 RSI: 0000000000000092 RDI: ffff9e853f457d00
[ 705.412997] RBP: ffffac6d003d0e80 R08: 0000000000000514 R09: 00000000ffffffff
[705.412997] R10: 0000000000000000 R11: ffff9e851d84f3d0 R12: ffff9e850d8e4000
[705.412997] R13: 0000000000000005 R14: ffff9e850d8e4480 R15: ffff9e8537d377c0
[ 705.412997] FS: 00007fa4baba5740(0000) GS:ffff9e853f440000(0000) knlGS:0000000000000000
[705.412997] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[705.412997] CR2: 00007f54983fad0c CR3: 0000000b99992006 CR4: 00000000000606e0
[705.412997] Отслеживание вызовов:
[705.412997] <IRQ>
[705.412997] ? pfifo_fast_enqueue+0x160/0x151
[705.412997] call_timer_fn+0x32/0x12c
[705.412997] run_timer_softirq+0x1a5/0x42e
[705.412997] __do_softirq+0xe1/0x2e7
[705.412997] ? hrtimer_interrupt+0x12a/0x222
[705.412997] irq_exit+0xf3/0xf8
[705.412997] smp_apic_timer_interrupt+0x79/0x130
[705.412997] apic_timer_interrupt+0xf/0x14
[705.412997] </IRQ>

если я добавлю смягчения = выкл. к параметрам командной строки ядра при загрузке, фороникс длится от 4 до 7 минут и система снова перестает отвечать на запросы. То же самое происходит с гостями KVM, пытался установить Дебиан 11 5 раз установка зависает либо во время первоначальной установки пакета, либо во время распаковки ядра.

экран сообщений о зависании: https://ibb.co/k2Jk4QG

У кого-нибудь были подобные проблемы? Спасибо !

P.S.: текущее ядро 5.4.17-2136.300.7.el8uek.x86_64, также пробовал с 4.18.0-305.19.1.el8_4.x86_64 без разницы

John Greene avatar
флаг cn
Вы также добавили пакет микрокода Intel?
valc avatar
флаг cn
Да, было. Более того, я проверил все предыдущие микрокоды, найденные на [форуме win-raid] (https://www.win-raid.com/t5709f47-OFFER-Intel-CPU-Microcode-Archives.html). Кстати, теперь я перешел на Debian 11, система стала немного более стабильной, тест phoronix все еще может привести к сбою системы, но через 15 минут ... Я заказал Xeon E5-2470v2, надеюсь, это решит проблему. позже добавлю результаты
John Greene avatar
флаг cn
Я вижу проблему спин-блокировки для уровня планировщика во время состояния прерывания. соответствует ли точка сбоя между каждой неудачной попыткой?
John Greene avatar
флаг cn
также я заметил sysvec_acpi в выводе сбоя, а Dell BIOS примерно 2015 года, поэтому я попытался удалить некоторые ACPI в строке ядра.
valc avatar
флаг cn
Спасибо за ответ. Да, точка краха была постоянной между тестами. Какие таблицы ACPI вы бы порекомендовали удалить?
John Greene avatar
флаг cn
можете ли вы сделать «dmidecode» для версии BIOS mobo и является ли прошивка Dell mobo последней?
John Greene avatar
флаг cn
Исторически сложилось так, что memtest выявлял любые странные битфлипы, и это мое текущее мнение. Я бы сделал следующее: загрузил старый дистрибутив компакт-диска и посмотрел, что из этого получится. если это не удается, то это аппаратная проблема. в любом случае, первая замена аппаратного обеспечения будет заключаться в уменьшении объема памяти DIMM, его обеззараживании до минимума и повторной попытке. если это не удается, замените его, пока он не пройдет.
valc avatar
флаг cn
Привет, пожалуйста, найдите [dmidecode] (https://gist.github.com/ValentinChirikov/f5c3d3fc2cee63c240dcddda4cc50d6a#file-gistfile1-txt)
valc avatar
флаг cn
на данный момент жду посылку с E5-2470v2, обязательно сделаю мемтест перед заменой процессора, результаты выложу сюда, спасибо !
John Greene avatar
флаг cn
я все еще думаю, что вы должны депопуляции MemChips и получить проходной результат перед заменой процессора.
valc avatar
флаг cn
Наконец-то я получил коммутируемый процессор E5-2470v2 - и все проблемы ушли, никаких зависаний, никаких проблем с TSC, phoronix stress-run stress-ng проходит без проблем. Спасибо за обязательство, я закрываю проблему.
John Greene avatar
флаг cn
Поздравляем! Вы второй с проблемой ЦП, о которой я знаю с Xeon. Похоже на лопнувший конденсатор внутри процессора.
valc avatar
флаг cn
Спасибо ! Первоначально причиной переключения ЦП была производительность, но на самом деле оказалось, что кристалл ЦП был действительно поврежден.
Рейтинг:0
флаг cn

Переключение процессора на E5-2470v2 решило проблему, кажется, что предыдущий процессор был каким-то образом сломан.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.