И это всё МОЁ
Домашний сервер стал внезапно перезагружаться с ошибкой machine check exception. Иногда и просто когда ничего не делает, но более менее гарантированно если заставить его обучать модели машинного обучения (на процессоре) и параллельно качать торренты. Я уже отсоединил подозрительную плашку оперативной памяти, видеокарту, подключил к другому блоку питанию, а он продолжает перезагружаться. Не сразу, а через часик после включения. В логах о причине перезагрузки или ошибках ничего не написано, но подключив дисплей, я поймал следующую ошибку
mce: [Hardware Error]: CPU 0: Machine Check Exception: 5 Bank 0: b200000000030005
mce: [Hardware Error]: RIP !INEXACT! 10:<ffffffffba0f5388> {rcu_nmi_enter+0x18/0x60}
mce: [Hardware Error]: TSC bc1a9e6e07e
mce: [Hardware Error]: PROCeSSOR 0:306a9 TIME 1611499491 SOCKET 0 APIC 0 microcode 12
mce: [Hardware Error]: Run the above through 'mcelog --ascii'
mce: [Hardware Error]: Machine check: Processor context corrupt
Kernel panic - not syncing: Fatal machine check
Kernel Offset: 0x39000000 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffffbfffffff)
К сожалению в Debian нет mcelog, поэтому я не могу ее проинтерпретировать. Хотя наверное и с ним не смог бы. В чем причина? Что делать? Как найти проблему?