<html>
    <head>
      <base href="https://bugs.freedesktop.org/">
    </head>
    <body><table border="1" cellspacing="0" cellpadding="8">
        <tr>
          <th>Bug ID</th>
          <td><a class="bz_bug_link 
          bz_status_NEW "
   title="NEW - VM_L2_PROTECTION_FAULT"
   href="https://bugs.freedesktop.org/show_bug.cgi?id=111231">111231</a>
          </td>
        </tr>

        <tr>
          <th>Summary</th>
          <td>VM_L2_PROTECTION_FAULT
          </td>
        </tr>

        <tr>
          <th>Product</th>
          <td>DRI
          </td>
        </tr>

        <tr>
          <th>Version</th>
          <td>XOrg git
          </td>
        </tr>

        <tr>
          <th>Hardware</th>
          <td>x86-64 (AMD64)
          </td>
        </tr>

        <tr>
          <th>OS</th>
          <td>Linux (All)
          </td>
        </tr>

        <tr>
          <th>Status</th>
          <td>NEW
          </td>
        </tr>

        <tr>
          <th>Severity</th>
          <td>major
          </td>
        </tr>

        <tr>
          <th>Priority</th>
          <td>medium
          </td>
        </tr>

        <tr>
          <th>Component</th>
          <td>DRM/AMDgpu
          </td>
        </tr>

        <tr>
          <th>Assignee</th>
          <td>dri-devel@lists.freedesktop.org
          </td>
        </tr>

        <tr>
          <th>Reporter</th>
          <td>ds2.bugs.freedesktop@gmail.com
          </td>
        </tr></table>
      <p>
        <div>
        <pre>When playing minetest on an AMD ryzen 2200G with vega integrated graphics,
occasionally the system will appear to suffer a graphics lock-up during game
load when the loading bar appears.
When this occours, dmesg spits out a VM_L2_PROTECTION_FAULT and then repeated
errors about fence timeouts:

[ 5699.136659] amdgpu 0000:0b:00.0: [gfxhub] no-retry page fault (src_id:0
ring:155 vmid:5 pasid:32770, for process minetest pid 7127 thread minetest:cs0
pid 7133)
[ 5699.136662] amdgpu 0000:0b:00.0:   in page starting at address
0x000080014034d000 from 27
[ 5699.136664] amdgpu 0000:0b:00.0: VM_L2_PROTECTION_FAULT_STATUS:0x00501136
[ 5704.343299] [drm:amdgpu_dm_atomic_commit_tail [amdgpu]] *ERROR* Waiting for
fences timed out.
[ 5709.259775] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* ring gfx timeout,
signaled seq=443165, emitted seq=443167
[ 5709.259860] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* Process information:
process minetest pid 7127 thread minetest:cs0 pid 7133
[ 5709.259862] [drm] GPU recovery disabled.
[ 5709.463238] [drm:amdgpu_dm_atomic_commit_tail [amdgpu]] *ERROR* Waiting for
fences timed out.
[ 5719.286451] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* ring gfx timeout,
signaled seq=443165, emitted seq=443167
[ 5719.286537] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* Process information:
process minetest pid 7127 thread minetest:cs0 pid 7133
[ 5719.286539] [drm] GPU recovery disabled.
[ 5729.312836] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* ring gfx timeout,
signaled seq=443165, emitted seq=443167
[ 5729.312921] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* Process information:
process minetest pid 7127 thread minetest:cs0 pid 7133
[ 5729.312923] [drm] GPU recovery disabled.
[ 5739.339485] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* ring gfx timeout,
signaled seq=443165, emitted seq=443167
[ 5739.339570] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* Process information:
process minetest pid 7127 thread minetest:cs0 pid 7133
[ 5739.339572] [drm] GPU recovery disabled.
[ 5749.366552] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* ring gfx timeout,
signaled seq=443165, emitted seq=443167
[ 5749.366637] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* Process information:
process minetest pid 7127 thread minetest:cs0 pid 7133
[ 5749.366640] [drm] GPU recovery disabled.

Notably, when playing minetest normally, this doesn't always happen, but when
it does the screen gets a light covering of graphical corruption "confetti"
(photos to follow - had to be taken on a phone, sorry).
Currently running a mesa debug build compiled from git at commit b0626c1f306
after seeing if <a class="bz_bug_link 
          bz_status_NEW "
   title="NEW - [Vega10] GPU lockup on boot: VMC page fault"
   href="show_bug.cgi?id=105251">https://bugs.freedesktop.org/show_bug.cgi?id=105251</a> had
anything to do with it - I think this is related but not entirely a duplicate,
as a fix mentioned there did stop the test program there from having an effect
but did not stop this problem.

In the course of trying to reproduce this problem in a more repeatable manner,
I decided to take an apitrace (will attach in following messages).
Interestingly, the brief trace I took did not crash my system during recording
of it, but now replaying it will fairly regularly cause the same kind of
lockup, more frequently than the game itself will.
I ran apitrace replay in verbose mode to see whereabouts it stopped to see if
this gave an approximate indications of where things starting going pear
shaped.  The point at which output ends is well short of the entire apitrace
dump, as expected from what I saw - and additionally the stderr appears to
contain an exception of some kind. See the apitrace.out.txt and
apitrace.err.txt attachments (to follow separately).

I haven't yet got a dmesg output during minetest running itself, but I have got
some runs (spanning from boot to either hard or soft reboot - sometimes xorg
was killable, othertimes not) from replaying the offending api trace. These
will also be attached in follow-up messages.
These appear to have a lot more GPU faults before the messages about timeouts
appear.</pre>
        </div>
      </p>


      <hr>
      <span>You are receiving this mail because:</span>

      <ul>
          <li>You are the assignee for the bug.</li>
      </ul>
    </body>
</html>