<html>
    <head>
      <base href="https://bugs.freedesktop.org/">
    </head>
    <body><table border="1" cellspacing="0" cellpadding="8">
        <tr>
          <th>Bug ID</th>
          <td><a class="bz_bug_link 
          bz_status_NEW "
   title="NEW - GPU crash and failed reset leading to deadlock on Polaris 22 XL [Radeon RX Vega M GL]"
   href="https://bugs.freedesktop.org/show_bug.cgi?id=110413">110413</a>
          </td>
        </tr>

        <tr>
          <th>Summary</th>
          <td>GPU crash and failed reset leading to deadlock on Polaris 22 XL [Radeon RX Vega M GL]
          </td>
        </tr>

        <tr>
          <th>Product</th>
          <td>DRI
          </td>
        </tr>

        <tr>
          <th>Version</th>
          <td>unspecified
          </td>
        </tr>

        <tr>
          <th>Hardware</th>
          <td>x86-64 (AMD64)
          </td>
        </tr>

        <tr>
          <th>OS</th>
          <td>Linux (All)
          </td>
        </tr>

        <tr>
          <th>Status</th>
          <td>NEW
          </td>
        </tr>

        <tr>
          <th>Severity</th>
          <td>major
          </td>
        </tr>

        <tr>
          <th>Priority</th>
          <td>medium
          </td>
        </tr>

        <tr>
          <th>Component</th>
          <td>DRM/AMDgpu
          </td>
        </tr>

        <tr>
          <th>Assignee</th>
          <td>dri-devel@lists.freedesktop.org
          </td>
        </tr>

        <tr>
          <th>Reporter</th>
          <td>rverschelde@gmail.com
          </td>
        </tr></table>
      <p>
        <div>
        <pre>Created <span class=""><a href="attachment.cgi?id=143950" name="attach_143950" title="lspci -vvv output for HP Spectre 360x">attachment 143950</a> <a href="attachment.cgi?id=143950&action=edit" title="lspci -vvv output for HP Spectre 360x">[details]</a></span>
lspci -vvv output for HP Spectre 360x

My HP Spectre x360 laptop bought in March 2019 comes with KabyLake G HD
Graphics 630 and a discrete AMD Radeon RX Vega M GL GPU.

I only enable the Radeon GPU when needed to play graphics intensive games with
`DRI_PRIME=1`, and so far I experience a lot of GPU deadlocks with the
following symptoms:
- Temperatures raise, the CPUs are throttled. Framerate drops when this
happens.
- Later on, GPU faults are reported in dmesg, the game's rendering freezes (but
music continues playing). I am still able to alt+tab back to desktop or open a
terminal, but the game's process can't be killed. If I'm monitoring
temperatures, lm_sensors always reports a bogus 511°C temperature for the AMD
dGPU at this point, before breaking.
- Any subsequent attempt at using the AMD GPU will cause a system deadlock, and
I need to force shutdown with the power button.

My testing so far has covered:
- Unity3D games like For The King or StarCrawlers. The crash happens mid-game,
not in a strictly reproducible manner, but seems related to CPU
temperature/throttling.
  * I could also reproduce the crash with SuperTuxKart, not in-game but when
alt-tabbing back to desktop.
  * I could not get the crash yet with glmark2. With For The King, I can
reliably get a crash within 1 to 10 minutes in-game when playing with "High" or
"Dream" graphics quality.
- Kernel 5.0.x (up to 5.0.7) from Mageia 7 (Cauldron), e.g.
5.0.7-desktop-4.mga7.
  * I also tried `git://people.freedesktop.org/~agd5f/linux -b
amd-staging-drm-next` at b07c394a327fc9e435ee03288584c111fa73d963, but I still
got the same symptoms. dmesg output was in part different though, more spammy.
  * Following discussions in <a class="bz_bug_link 
          bz_status_NEW "
   title="NEW - deadlock occurs during GPU reset"
   href="show_bug.cgi?id=109692">bug 109692</a>, I tried the patches provided by Andrey
Grodzovsky in <a class="bz_bug_link 
          bz_status_NEW "
   title="NEW - deadlock occurs during GPU reset"
   href="show_bug.cgi?id=109692#c34">bug 109692 comment 34</a>, but they did not solve the issue for me.
- Mesa 19.0.0 to 19.0.2 built against LLVM 7.0.1.
- Suspecting the CPU temperature/throttling as a trigger, I'm using
<a href="https://github.com/kitsunyan/intel-undervolt">https://github.com/kitsunyan/intel-undervolt</a> to undervolt the CPU Cache by -100
mV and set the CPU limit temperature to 80°C instead of 100°C. This has helped
with throttling issues I had during code compilation, but no visible change on
my GPU crashes that I can tell. I can disable this undervolting when doing
tests if required.

I found various bug reports which might well be duplicates, but I'm opening my
own to avoid hijacking discussions on what may or may not be the same root
cause: <a class="bz_bug_link 
          bz_status_NEW "
   title="NEW - [amdgpu/radeonsi,HAWAII] Hand of Fate 2 leads to GPU lock up (display powered off, SSH works, keyboard dead): "flip_done timed out""
   href="show_bug.cgi?id=109461">bug 109461</a>, <a class="bz_bug_link 
          bz_status_NEW "
   title="NEW - Frozen display with Radeon RX 580 and Open Source Drivers under GNU/Linux Debian Sid"
   href="show_bug.cgi?id=109466">bug 109466</a>, <a class="bz_bug_link 
          bz_status_NEW "
   title="NEW - deadlock occurs during GPU reset"
   href="show_bug.cgi?id=109692">bug 109692</a> (I installed Shadow of the Tomb
Raider but haven't checked if I can reproduce this one's symptoms yet), bug
109819.

I attach some relevant logs on the system and the bug. Please ask for anything
else you may need.</pre>
        </div>
      </p>


      <hr>
      <span>You are receiving this mail because:</span>

      <ul>
          <li>You are the assignee for the bug.</li>
      </ul>
    </body>
</html>