<!DOCTYPE html><html><head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
  </head>
  <body>
    Hi Chong,<br>
    <br>
    Andjelkovic just shared a bunch of traces from rocm on teams with me
    which I analyzed.<br>
    <br>
    When you know what you look for it's actually pretty obvious what's
    going on. Just look at the timestamp of the fault and compare that
    with the timestamp of the operation mapping something at the given
    address.<br>
    <br>
    When mapping an address happens only after accessing an address then
    there is clearly something wrong in the code which coordinates this
    and that is the ROCm stress test tool in this case.<br>
    <br>
    Regards,<br>
    Christian.<br>
    <br>
    <div class="moz-cite-prefix">Am 21.10.24 um 11:02 schrieb Li,
      Chong(Alan):<br>
    </div>
    <blockquote type="cite" cite="mid:DS7PR12MB57688ACFA41BEA8FD636ECB89B432@DS7PR12MB5768.namprd12.prod.outlook.com">
      
      <meta name="Generator" content="Microsoft Word 15 (filtered medium)">
      <style>@font-face
        {font-family:SimSun;
        panose-1:2 1 6 0 3 1 1 1 1 1;}@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}@font-face
        {font-family:DengXian;
        panose-1:2 1 6 0 3 1 1 1 1 1;}@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}@font-face
        {font-family:Aptos;}@font-face
        {font-family:"\@DengXian";
        panose-1:2 1 6 0 3 1 1 1 1 1;}@font-face
        {font-family:"\@SimSun";
        panose-1:2 1 6 0 3 1 1 1 1 1;}@font-face
        {font-family:Consolas;
        panose-1:2 11 6 9 2 2 4 3 2 4;}p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        font-size:12.0pt;
        font-family:"Aptos",sans-serif;}a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}pre
        {mso-style-priority:99;
        mso-style-link:"HTML Preformatted Char";
        margin:0in;
        margin-bottom:.0001pt;
        font-size:10.0pt;
        font-family:"Courier New";}span.HTMLPreformattedChar
        {mso-style-name:"HTML Preformatted Char";
        mso-style-priority:99;
        mso-style-link:"HTML Preformatted";
        font-family:Consolas;}span.ui-provider
        {mso-style-name:ui-provider;}span.EmailStyle21
        {mso-style-type:personal-reply;
        font-family:"Arial",sans-serif;
        color:windowtext;}.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;
        mso-ligatures:none;}div.WordSection1
        {page:WordSection1;}ol
        {margin-bottom:0in;}ul
        {margin-bottom:0in;}</style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
      <p style="font-family:Calibri;font-size:10pt;color:#0000FF;margin:5pt;font-style:normal;font-weight:normal;text-decoration:none;" align="Left">
        [AMD Official Use Only - AMD Internal Distribution Only]<br>
      </p>
      <br>
      <div>
        <div class="WordSection1">
          <p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Arial",sans-serif">Hi,
              Christian, 
            </span>   <span style="font-size:11.0pt;font-family:"Arial",sans-serif">Raina,
              Yera.<o:p></o:p></span></p>
          <p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Arial",sans-serif"><o:p> </o:p></span></p>
          <p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Arial",sans-serif">If
              this issue in rocm, I need assign my ticket
              <a href="https://ontrack-internal.amd.com/browse/SWDEV-459983" moz-do-not-send="true">SWDEV-459983</a> to rocm team.<o:p></o:p></span></p>
          <p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Arial",sans-serif"><o:p> </o:p></span></p>
          <p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Arial",sans-serif">Is
              there anything to share with the rocm pm?<o:p></o:p></span></p>
          <p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Arial",sans-serif">Such
              as the Email or chat history or the ticket you talk with
            </span><span class="ui-provider">Andjelkovic.</span><span style="font-size:11.0pt;font-family:"Arial",sans-serif"><o:p></o:p></span></p>
          <p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Arial",sans-serif"><o:p> </o:p></span></p>
          <p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Arial",sans-serif">Thanks,<o:p></o:p></span></p>
          <p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Arial",sans-serif">Chong.<o:p></o:p></span></p>
          <p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Arial",sans-serif"><o:p> </o:p></span></p>
          <div>
            <div style="border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0in 0in 0in">
              <p class="MsoNormal"><b><span style="font-size:11.0pt;font-family:"Calibri",sans-serif">From:</span></b><span style="font-size:11.0pt;font-family:"Calibri",sans-serif">
                  Koenig, Christian <a class="moz-txt-link-rfc2396E" href="mailto:Christian.Koenig@amd.com"><Christian.Koenig@amd.com></a>
                  <br>
                  <b>Sent:</b> Monday, October 21, 2024 4:00 PM<br>
                  <b>To:</b> Li, Chong(Alan) <a class="moz-txt-link-rfc2396E" href="mailto:Chong.Li@amd.com"><Chong.Li@amd.com></a>;
                  <a class="moz-txt-link-abbreviated" href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a><br>
                  <b>Cc:</b> cao, lin <a class="moz-txt-link-rfc2396E" href="mailto:lin.cao@amd.com"><lin.cao@amd.com></a><br>
                  <b>Subject:</b> Re: [PATCH] drm/amd/amdgpu: change the
                  flush gpu tlb mode to sync mode.<o:p></o:p></span></p>
            </div>
          </div>
          <p class="MsoNormal"><o:p> </o:p></p>
          <p class="MsoNormal">Am 21.10.24 um 07:56 schrieb Chong Li:<br>
            <br>
            <o:p></o:p></p>
          <blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
            <pre>change the gpu tlb flush mode to sync mode to<o:p></o:p></pre>
            <pre>solve the issue in the rocm stress test.<o:p></o:p></pre>
          </blockquote>
          <p class="MsoNormal"><br>
            And again complete NAK to this.<br>
            <br>
            I've already proven together with <span class="ui-provider">Andjelkovic
              that the problem is that the rocm stress test is broken.</span><br>
            <br>
            <span class="ui-provider">The test tries to access memory
              before it is probably mapped and that is provable by
              looking into the tracelogs.</span><br>
            <br>
            <span class="ui-provider">Regards,</span><br>
            <span class="ui-provider">Christian. </span><br>
            <br>
            <br>
            <o:p></o:p></p>
          <blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
            <pre><o:p> </o:p></pre>
            <pre><o:p> </o:p></pre>
            <pre>Signed-off-by: Chong Li <a href="mailto:chongli2@amd.com" moz-do-not-send="true"><chongli2@amd.com></a><o:p></o:p></pre>
            <pre>---<o:p></o:p></pre>
            <pre> drivers/gpu/drm/amd/amdgpu/amdgpu_vm_tlb_fence.c | 4 ++--<o:p></o:p></pre>
            <pre> 1 file changed, 2 insertions(+), 2 deletions(-)<o:p></o:p></pre>
            <pre><o:p> </o:p></pre>
            <pre>diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_vm_tlb_fence.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_vm_tlb_fence.c<o:p></o:p></pre>
            <pre>index 51cddfa3f1e8..4d9ff7b31618 100644<o:p></o:p></pre>
            <pre>--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_vm_tlb_fence.c<o:p></o:p></pre>
            <pre>+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_vm_tlb_fence.c<o:p></o:p></pre>
            <pre>@@ -98,7 +98,6 @@ void amdgpu_vm_tlb_fence_create(struct amdgpu_device *adev, struct amdgpu_vm *vm<o:p></o:p></pre>
            <pre>  f->adev = adev;<o:p></o:p></pre>
            <pre>  f->dependency = *fence;<o:p></o:p></pre>
            <pre>  f->pasid = vm->pasid;<o:p></o:p></pre>
            <pre>- INIT_WORK(&f->work, amdgpu_tlb_fence_work);<o:p></o:p></pre>
            <pre>  spin_lock_init(&f->lock);<o:p></o:p></pre>
            <pre> <o:p></o:p></pre>
            <pre>  dma_fence_init(&f->base, &amdgpu_tlb_fence_ops, &f->lock,<o:p></o:p></pre>
            <pre>@@ -106,7 +105,8 @@ void amdgpu_vm_tlb_fence_create(struct amdgpu_device *adev, struct amdgpu_vm *vm<o:p></o:p></pre>
            <pre> <o:p></o:p></pre>
            <pre>  /* TODO: We probably need a separate wq here */<o:p></o:p></pre>
            <pre>  dma_fence_get(&f->base);<o:p></o:p></pre>
            <pre>- schedule_work(&f->work);<o:p></o:p></pre>
            <pre> <o:p></o:p></pre>
            <pre>  *fence = &f->base;<o:p></o:p></pre>
            <pre>+<o:p></o:p></pre>
            <pre>+ amdgpu_tlb_fence_work(&f->work);<o:p></o:p></pre>
            <pre> }<o:p></o:p></pre>
          </blockquote>
          <p class="MsoNormal"><o:p> </o:p></p>
        </div>
      </div>
    </blockquote>
    <br>
  </body>
</html>