<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none;"> P {margin-top:0;margin-bottom:0;} </style>
</head>
<body dir="ltr">
<p style="font-family:Arial;font-size:10pt;color:#317100;margin:15pt;" align="Left">
[AMD Public Use]<br>
</p>
<br>
<div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
Fixing the security tag...<br>
</div>
<div>
<div id="appendonsend"></div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<hr tabindex="-1" style="display:inline-block; width:98%">
<div id="divRplyFwdMsg" dir="ltr"><font style="font-size:11pt" face="Calibri, sans-serif" color="#000000"><b>From:</b> amd-gfx <amd-gfx-bounces@lists.freedesktop.org> on behalf of Bridgman, John <John.Bridgman@amd.com><br>
<b>Sent:</b> March 8, 2020 3:10 PM<br>
<b>To:</b> Clemens Eisserer <linuxhippy@gmail.com>; amd-gfx@lists.freedesktop.org <amd-gfx@lists.freedesktop.org><br>
<b>Subject:</b> Re: Possibility of RX570 responsible for spontaneous reboots (MCE) with Ryzen 3700x?</font>
<div> </div>
</div>
<div dir="ltr">
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
OK, that's a bit strange... I found mce log and MCE-Ryzen-Decoder as options for decoding.
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
In MCE-Ryzen-Decoder docco the example is exactly the error you are seeing, with the same output, so guessing that is what you are using:</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<a href="https://nam11.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2FDimitriFourny%2FMCE-Ryzen-Decoder&data=02%7C01%7Cjohn.bridgman%40amd.com%7Ca630e03b50564f7f2d3508d7c3946055%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637192915078581327&sdata=N8FCig9TNL8tppMXnn9RJ2K%2BIsuYFaBJ7cHvsfhgris%3D&reserved=0" originalsrc="https://github.com/DimitriFourny/MCE-Ryzen-Decoder" shash="ImqtFdAH5rIgPu42Z4YN89S3x0pS460zY6YLJhKtBtrZsZW5MJgaK9dCVMlGb3UMAzV535+lKWm+KzNY1VIF9NSxovFESLJXgPgY9Y7fFVvJWnGKzosEChF6lKb426OWbIbJgdihUFGm88wJxDX3KDaP9sK/tA9wTdw3VRY2wfM=">https://github.com/DimitriFourny/MCE-Ryzen-Decoder</a><br>
</div>
<div>
<div id="x_appendonsend"></div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
On the other hand I found a report on AMD forums where the same error is decoded by mce log as a generic error in a memory transaction, which seems to make more sense.</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<a href="https://nam11.safelinks.protection.outlook.com/?url=https%3A%2F%2Fcommunity.amd.com%2Fthread%2F216084&data=02%7C01%7Cjohn.bridgman%40amd.com%7Ca630e03b50564f7f2d3508d7c3946055%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637192915078581327&sdata=G8MPgLKheVdcuA626wFpZwSgqektnTpKkEPnBqlk1QM%3D&reserved=0" originalsrc="https://community.amd.com/thread/216084" shash="urXVTGsiUt2jjinZtqR2cXabObkNovYbveyRs1XZPLvGq5LVrayUInduW0fEAcvRyWr/BPwPruJAGSm3ObsshOLUYzP+qJxuwREEwtVyBeOLCkVsI+N58YOvi6InVyqb2y/JaDsJlA30y3YnxDhckBaUi/j6E3yZa13u4n5lT0A=">https://community.amd.com/thread/216084</a><br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
For something as simple as the GPU bus interface not responding to an access by the CPU I think you would get a different error (bus error) but not 100% sure about that.
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
My first thought would be to see if your mobo BIOS has an option to force PCIE gen3 instead of 4 and see if that makes a difference. There are some amdgpu module parms related to PCIE as well but I'm not sure which ones to recommend.<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<hr tabindex="-1" style="display:inline-block; width:98%">
<div id="x_divRplyFwdMsg" dir="ltr"><font style="font-size:11pt" face="Calibri, sans-serif" color="#000000"><b>From:</b> amd-gfx <amd-gfx-bounces@lists.freedesktop.org> on behalf of Bridgman, John <John.Bridgman@amd.com><br>
<b>Sent:</b> March 8, 2020 2:45 PM<br>
<b>To:</b> Clemens Eisserer <linuxhippy@gmail.com>; amd-gfx@lists.freedesktop.org <amd-gfx@lists.freedesktop.org><br>
<b>Subject:</b> Re: Possibility of RX570 responsible for spontaneous reboots (MCE) with Ryzen 3700x?</font>
<div> </div>
</div>
<div dir="ltr">
<p style="margin-top: 0px; margin-bottom: 0px;margin-top:0px; margin-bottom:0px; font-family:Arial; font-size:10pt; color:#0078D7; margin:15pt" align="Left">
[AMD Official Use Only - Internal Distribution Only]<br>
</p>
<br>
<div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
The decoded MCE info doesn't look right... if the last bit is a zero I believe that means the watchdog timer is not enabled. 
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
That said, I'm not sure how the decoder you found works, but it seems like a bit more information would be required than what you passed in. Can you point me to the program you used ?</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
Thanks,</div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
John<br>
</div>
<div>
<div id="x_x_appendonsend"></div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<hr tabindex="-1" style="display:inline-block; width:98%">
<div id="x_x_divRplyFwdMsg" dir="ltr"><font style="font-size:11pt" face="Calibri, sans-serif" color="#000000"><b>From:</b> amd-gfx <amd-gfx-bounces@lists.freedesktop.org> on behalf of Clemens Eisserer <linuxhippy@gmail.com><br>
<b>Sent:</b> March 8, 2020 9:06 AM<br>
<b>To:</b> amd-gfx@lists.freedesktop.org <amd-gfx@lists.freedesktop.org><br>
<b>Subject:</b> Possibility of RX570 responsible for spontaneous reboots (MCE) with Ryzen 3700x?</font>
<div> </div>
</div>
<div class="x_x_BodyFragment"><font size="2"><span style="font-size:11pt">
<div class="x_x_PlainText">Hi there,<br>
<br>
Right after Ryzen3xxx was available I built a new system consisting of:<br>
- Asrock Phantom Gaming 4 X570 (latest BIOS 2.3)<br>
- Ryzen 3700x (not overclocked)<br>
- MSI RX570 4GB<br>
- Larger CPU cooler, high quality PSU, etc...<br>
<br>
The system runs stable with Windows-10 (no reboot BSOD in months) and<br>
runs memtest86 (single/multicore) as well as various load-tests for<br>
hours without errors. However running Linux I get a spontaneous reboot<br>
every now and then (2-3x a week), with always the same machine check<br>
exception logged:<br>
<br>
[    0.105003] .... node  #0, CPUs:        #1  #2<br>
[    0.107022] mce: [Hardware Error]: Machine check events logged<br>
[    0.107023] mce: [Hardware Error]: CPU 2: Machine Check: 0 Bank 5:<br>
bea0000000000108<br>
[    0.107092] mce: [Hardware Error]: TSC 0 ADDR 7f80a0c0181a MISC<br>
d012000100000000 SYND 4d000000 IPID 500b000000000<br>
[    0.107167] mce: [Hardware Error]: PROCESSOR 2:870f10 TIME<br>
1580717835 SOCKET 0 APIC 4 microcode 8701013<br>
<br>
I've tried a lot of different CPU-related things, like disabling C6,<br>
disabling MWAIT use for task switching, etc without success.<br>
I tried two times to contact AMD support only asking them to please<br>
decode the MCE hex value - but as soon as they read over the term<br>
"linux" the basically abort any communication. And to be honest, I had<br>
the impression that they did not actually know what an MCE is in the<br>
first place.<br>
<br>
Luckily I found a decoder on github which prints:<br>
Bank: Execution Unit (EX)<br>
Error: Watchdog Timeout error (WDT 0x0)<br>
<br>
I was rather hopeless until I found the following reddit thread:<br>
<a href="https://nam11.safelinks.protection.outlook.com/?url=https%3A%2F%2Fwww.reddit.com%2Fr%2Farchlinux%2Fcomments%2Fe33nyg%2Fhard_reboots_with_ryzen_3600x%2F&data=02%7C01%7Cjohn.bridgman%40amd.com%7Ca630e03b50564f7f2d3508d7c3946055%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637192915078591321&sdata=QAbr3IkabyLUlYrR4K%2B%2BOpVbkf5BPEgNjrnDSltoQNg%3D&reserved=0" originalsrc="https://www.reddit.com/r/archlinux/comments/e33nyg/hard_reboots_with_ryzen_3600x/" shash="clreb6ZaMOO6LjVlNgWQDudUY8B+G13uKGWSVEWn57YSHXpHlMVT90EEZvockX1SLXq5iTg7Bk5HfF3bzh6RvRhb3yqWB1DSfEikiN/pfxxFYpzkZq3SVMIjVIoez1pB9Mcut3Jp2yhKuZY1XTqaUTqHYHZXRyK1W3OTaNCSGQQ=">https://nam11.safelinks.protection.outlook.com/?url=https%3A%2F%2Fwww.reddit.com%2Fr%2Farchlinux%2Fcomments%2Fe33nyg%2Fhard_reboots_with_ryzen_3600x%2F&amp;data=02%7C01%7Cjohn.bridgman%40amd.com%7C683b51328ba1471c113c08d7c3619d90%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637192697111254592&amp;sdata=4TuB0a0VHxTqd8R0xLwxg%2BOv1vu8C7L%2FLW4O0EOiq1I%3D&amp;reserved=0</a><br>
what the decoder logic is <br>
The users there claim to experience exactly the same problem (even<br>
with the same MCE-Code logged) but where using R600 based graphics<br>
cards - he is even using the same mainboard. When he swapped his<br>
R600-card with a new RX5700 the problems vanished.<br>
<br>
I don't have the luxury to simply try another GPU (my RX5700 is the<br>
only one properly driving my 4k@60Hz panel), however the whole<br>
observation makes me wonder. How can a GPU be responsible for<br>
low-level errors such as the machine check exception in the execution<br>
units like the one mentioned above.<br>
Could DMA transfers gone bad be the cluprit?<br>
Are there any "safe mode" options available I could try regarding<br>
amdgpu (I tried disabling low-power states but this didn't help and<br>
only made my GPU fans spin up)?<br>
<br>
Any help is highly appreciated.<br>
<br>
Thanks, Clemens<br>
_______________________________________________<br>
amd-gfx mailing list<br>
amd-gfx@lists.freedesktop.org<br>
<a href="https://nam11.safelinks.protection.outlook.com/?url=https%3A%2F%2Flists.freedesktop.org%2Fmailman%2Flistinfo%2Famd-gfx&data=02%7C01%7Cjohn.bridgman%40amd.com%7Ca630e03b50564f7f2d3508d7c3946055%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637192915078601316&sdata=2Gkq6rDmH3ZDMpYEoC27%2FL3FrHbzPWlcZ493oFEpJIk%3D&reserved=0" originalsrc="https://lists.freedesktop.org/mailman/listinfo/amd-gfx" shash="NxJ5nqv+8rFwoMyJ6NUDTFejf2gXKg/PDfaASkGAAtuLCH3ShXb7EKdNzuFKG5MZYWgibbY+gbFUUgdbRZtr3dsCyuUuDAm+CiX9qqSlje8SOUo4yXqS4nN+9Bur+PjEGDHwVojZ92vB2thdweE3whjCzuJeyyP6ktCRGcekrgE=">https://nam11.safelinks.protection.outlook.com/?url=https%3A%2F%2Flists.freedesktop.org%2Fmailman%2Flistinfo%2Famd-gfx&amp;data=02%7C01%7Cjohn.bridgman%40amd.com%7C683b51328ba1471c113c08d7c3619d90%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637192697111264585&amp;sdata=L52zHeIm8GzEr5eYjUDm5bPK4U1DF0t1GtaxaUy9qHY%3D&amp;reserved=0</a><br>
</div>
</span></font></div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</body>
</html>