<html>
  <head>

    <meta http-equiv="content-type" content="text/html; charset=UTF-8">
  </head>
  <body>
    <p>Hi,</p>
    <p><br>
    </p>
    <p>does anyone know any documentation, or can provide advice on
      debugging amdgpu fault reports?</p>
    <p><br>
    </p>
    <p>e.g:</p>
    <pre class="code highlight" lang="plaintext"><span id="LC1" class="line" lang="plaintext">Nov 21 19:17:06 fedora kernel: amdgpu 0000:01:00.0: amdgpu: [gfxhub] page fault (src_<a class="moz-txt-link-freetext" href="id:0">id:0</a> <a class="moz-txt-link-freetext" href="ring:8">ring:8</a> <a class="moz-txt-link-freetext" href="vmid:1">vmid:1</a> <a class="moz-txt-link-freetext" href="pasid:32769">pasid:32769</a>, for process vkcube pid 999 thread vkcube pid 999)                                                                                                                                                        </span>
<span id="LC2" class="line" lang="plaintext">Nov 21 19:17:06 fedora kernel: amdgpu 0000:01:00.0: amdgpu:   in page starting at address 0x0000800100700000 from client 0x1b (UTCL2)                   </span>
<span id="LC3" class="line" lang="plaintext">Nov 21 19:17:06 fedora kernel: amdgpu 0000:01:00.0: amdgpu: GCVM_L2_PROTECTION_FAULT_<a class="moz-txt-link-freetext" href="STATUS:0x00101A10">STATUS:0x00101A10</a>                                                                                                                                                                                                                        </span>
<span id="LC4" class="line" lang="plaintext">Nov 21 19:17:06 fedora kernel: amdgpu 0000:01:00.0: amdgpu:          Faulty UTCL2 client ID: SDMA0 (0xd)                 </span>
<span id="LC5" class="line" lang="plaintext">Nov 21 19:17:06 fedora kernel: amdgpu 0000:01:00.0: amdgpu:          MORE_FAULTS: 0x0</span>
<span id="LC6" class="line" lang="plaintext">Nov 21 19:17:06 fedora kernel: amdgpu 0000:01:00.0: amdgpu:          WALKER_ERROR: 0x0</span>
<span id="LC7" class="line" lang="plaintext">Nov 21 19:17:06 fedora kernel: amdgpu 0000:01:00.0: amdgpu:          PERMISSION_FAULTS: 0x1</span>
<span id="LC8" class="line" lang="plaintext">Nov 21 19:17:06 fedora kernel: amdgpu 0000:01:00.0: amdgpu:          MAPPING_ERROR: 0x0</span>
<span id="LC9" class="line" lang="plaintext">Nov 21 19:17:06 fedora kernel: amdgpu 0000:01:00.0: amdgpu:          RW: 0x0</span>



see <a class="moz-txt-link-freetext" href="https://gitlab.freedesktop.org/drm/amd/-/issues/2267">https://gitlab.freedesktop.org/drm/amd/-/issues/2267</a> for more context.

We have a complicated setup involving rendering then blitting to virtio-gpu exported dmabufs, with plenty of hacks in the mesa and xwayland stacks, so we are considering this our issue to debug, and not an issue with the driver at this point.
However, having debugged all the interesting parts leading to these faults, I am unable to decode the fault report to correlate to a buffer.

in the fault report, what address space is the address from?
given that the fault handler shifts the reported addres up by 12, I assume it is a 4K pfn which makes me assume a physical address is this correct?
if so, is that a vram pa or a host system memory pa?
is there any documentation for the other fields reported like the fault status etc?

I'd appreciate any advice you could give to help us debug further.

Thanks

Bob

</pre>
    <p></p>
  </body>
</html>