<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:"Segoe UI";
        panose-1:2 11 5 2 4 2 4 2 2 3;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        font-size:10.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
p.msipheadera4477989, li.msipheadera4477989, div.msipheadera4477989
        {mso-style-name:msipheadera4477989;
        mso-margin-top-alt:auto;
        margin-right:0in;
        mso-margin-bottom-alt:auto;
        margin-left:0in;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
span.EmailStyle19
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-US" link="blue" vlink="purple" style="word-wrap:break-word">
<div class="WordSection1">
<p class="msipheadera4477989" style="margin:0in"><span style="font-size:10.0pt;font-family:"Arial",sans-serif;color:blue">[AMD Official Use Only]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Thanks Shuotao.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">If the IO link cleanup works ok for you, you can use this patch as the base for adding your changes to add Hot Plug support. You can send a separate patch for that.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Regards,<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Mukul<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<div style="border:none;border-left:solid blue 1.5pt;padding:0in 0in 0in 4.0pt">
<div>
<div style="border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b><span style="font-size:11.0pt">From:</span></b><span style="font-size:11.0pt"> Shuotao Xu <shuotaoxu@microsoft.com>
<br>
<b>Sent:</b> Thursday, April 7, 2022 12:28 PM<br>
<b>To:</b> Joshi, Mukul <Mukul.Joshi@amd.com>; Grodzovsky, Andrey <Andrey.Grodzovsky@amd.com>; amd-gfx@lists.freedesktop.org<br>
<b>Cc:</b> Ziyue Yang <Ziyue.Yang@microsoft.com>; Lei Qu <Lei.Qu@microsoft.com>; Peng Cheng <pengc@microsoft.com>; Ran Shu <Ran.Shu@microsoft.com><br>
<b>Subject:</b> Re: [EXTERNAL] Re: Code Review Request for AMDGPU Hotplug Support<o:p></o:p></span></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[CAUTION: External Email] <o:p>
</o:p></span></p>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">Thanks Mukul very much!<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">The code looks neat, although kfd_locked looks still would cause trouble. I will try it.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Best,<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Shuotao<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal" style="margin-bottom:12.0pt"><b><span style="font-size:12.0pt;color:black">From:
</span></b><span style="font-size:12.0pt;color:black">Joshi, Mukul <<a href="mailto:Mukul.Joshi@amd.com">Mukul.Joshi@amd.com</a>><br>
<b>Date: </b>Friday, April 8, 2022 at 12:23 AM<br>
<b>To: </b>Shuotao Xu <<a href="mailto:shuotaoxu@microsoft.com">shuotaoxu@microsoft.com</a>>, Grodzovsky, Andrey <<a href="mailto:Andrey.Grodzovsky@amd.com">Andrey.Grodzovsky@amd.com</a>>,
<a href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a> <<a href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a>><br>
<b>Cc: </b>Ziyue Yang <<a href="mailto:Ziyue.Yang@microsoft.com">Ziyue.Yang@microsoft.com</a>>, Lei Qu <<a href="mailto:Lei.Qu@microsoft.com">Lei.Qu@microsoft.com</a>>, Peng Cheng <<a href="mailto:pengc@microsoft.com">pengc@microsoft.com</a>>, Ran Shu <<a href="mailto:Ran.Shu@microsoft.com">Ran.Shu@microsoft.com</a>><br>
<b>Subject: </b>RE: [EXTERNAL] Re: Code Review Request for AMDGPU Hotplug Support<o:p></o:p></span></p>
</div>
<p class="msipheadera4477989" style="margin:0in"><span style="font-size:10.0pt;font-family:"Arial",sans-serif;color:blue">[AMD Official Use Only]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Hi Shuotao,</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Just sent out the patch to cleanup IO links upon KFD device removal to the public mailing list.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Please try it, review it and let us know how it goes for you.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Thank you.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Regards,</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Mukul</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<div style="border:none;border-left:solid blue 1.5pt;padding:0in 0in 0in 4.0pt">
<div>
<div style="border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b><span style="font-size:11.0pt">From:</span></b><span style="font-size:11.0pt"> Shuotao Xu <<a href="mailto:shuotaoxu@microsoft.com">shuotaoxu@microsoft.com</a>>
<br>
<b>Sent:</b> Thursday, April 7, 2022 11:09 AM<br>
<b>To:</b> Joshi, Mukul <<a href="mailto:Mukul.Joshi@amd.com">Mukul.Joshi@amd.com</a>>; Grodzovsky, Andrey <<a href="mailto:Andrey.Grodzovsky@amd.com">Andrey.Grodzovsky@amd.com</a>>;
<a href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a><br>
<b>Cc:</b> Ziyue Yang <<a href="mailto:Ziyue.Yang@microsoft.com">Ziyue.Yang@microsoft.com</a>>; Lei Qu <<a href="mailto:Lei.Qu@microsoft.com">Lei.Qu@microsoft.com</a>>; Peng Cheng <<a href="mailto:pengc@microsoft.com">pengc@microsoft.com</a>>; Ran Shu <<a href="mailto:Ran.Shu@microsoft.com">Ran.Shu@microsoft.com</a>><br>
<b>Subject:</b> Re: [EXTERNAL] Re: Code Review Request for AMDGPU Hotplug Support</span><o:p></o:p></p>
</div>
</div>
<p class="MsoNormal"> <o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[CAUTION: External Email] </span>
<o:p></o:p></p>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">Hi Joshi,</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Per your comment, I produced a fix to work with multi-GPU system for hotplug support for our group’s internal usage.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">I have tested on a 4-node MI100 system, which seems to be working. It is pushed in the github PR.
</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">The details are in: <a href="https://nam11.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2FRadeonOpenCompute%2FROCK-Kernel-Driver%2Fpull%2F131%23issuecomment-1091843803&data=04%7C01%7CMukul.Joshi%40amd.com%7C6fa8b71a7017468299e608da18b3a649%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637849457140650516%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C2000&sdata=yGHto9N07npETzwdiPitfQF4J0NZFuKBdD%2FZQ8NpwJM%3D&reserved=0">
https://github.com/RadeonOpenCompute/ROCK-Kernel-Driver/pull/131#issuecomment-1091843803</a></span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">I will send the patch to the mail-list also.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">May I know when your patch is ready for public review?</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">All the best,</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Shuotao</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal" style="margin-bottom:12.0pt"><b><span style="font-size:12.0pt;color:black">From:
</span></b><span style="font-size:12.0pt;color:black">Joshi, Mukul <<a href="mailto:Mukul.Joshi@amd.com">Mukul.Joshi@amd.com</a>><br>
<b>Date: </b>Thursday, April 7, 2022 at 10:24 AM<br>
<b>To: </b>Shuotao Xu <<a href="mailto:shuotaoxu@microsoft.com">shuotaoxu@microsoft.com</a>>, Grodzovsky, Andrey <<a href="mailto:Andrey.Grodzovsky@amd.com">Andrey.Grodzovsky@amd.com</a>>,
<a href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a> <<a href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a>><br>
<b>Cc: </b>Ziyue Yang <<a href="mailto:Ziyue.Yang@microsoft.com">Ziyue.Yang@microsoft.com</a>>, Lei Qu <<a href="mailto:Lei.Qu@microsoft.com">Lei.Qu@microsoft.com</a>>, Peng Cheng <<a href="mailto:pengc@microsoft.com">pengc@microsoft.com</a>>, Ran Shu <<a href="mailto:Ran.Shu@microsoft.com">Ran.Shu@microsoft.com</a>><br>
<b>Subject: </b>RE: [EXTERNAL] Re: Code Review Request for AMDGPU Hotplug Support</span><o:p></o:p></p>
</div>
<table class="MsoNormalTable" border="0" cellspacing="0" cellpadding="0" align="left" width="100%" style="width:100.0%;cellpadding:0;cellspacing:0;display:table;border-collapse:seperate;float:none">
<tbody>
<tr>
<td style="background:#A6A6A6;padding:5.25pt 1.5pt 5.25pt 1.5pt;valign:middle"></td>
<td width="100%" style="width:100.0%;background:#EAEAEA;padding:5.25pt 3.75pt 5.25pt 11.25pt">
<div>
<p class="MsoNormal" style="mso-element:frame;mso-element-frame-hspace:2.25pt;mso-element-wrap:around;mso-element-anchor-vertical:paragraph;mso-element-anchor-horizontal:column;mso-height-rule:exactly">
<span style="font-size:9.0pt;font-family:"Segoe UI",sans-serif;color:#212121">You don't often get email from
<a href="mailto:mukul.joshi@amd.com">mukul.joshi@amd.com</a>. <a href="http://aka.ms/LearnAboutSenderIdentification">
Learn why this is important</a></span><o:p></o:p></p>
</div>
</td>
<td width="75" style="width:56.25pt;background:#EAEAEA;padding:5.25pt 3.75pt 5.25pt 3.75pt;align:left">
</td>
</tr>
</tbody>
</table>
<div>
<p class="msipheadera4477989" style="margin:0in"><span style="font-size:10.0pt;font-family:"Arial",sans-serif;color:blue">[AMD Official Use Only]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Hi Shuotao,</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Thanks for your patch.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">I have been working on something similar as I also found that we don’t cleanup IO links upon device removal.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">The IO-links cleanup change in your patch would work only either on a single GPU system or a multi-GPU system where the last node (in the sysfs topology) is hot-plugged out. That’s because of the way the atomic
 counter, topology_crat_proximity_domain, is used in the code.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">I have a patch which takes care of these issues on a multi-GPU system.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">I should be able to send that out for review in sometime.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Thanks,</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Mukul</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<div style="border:none;border-left:solid blue 1.5pt;padding:0in 0in 0in 4.0pt">
<div>
<div style="border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b><span style="font-size:11.0pt">From:</span></b><span style="font-size:11.0pt"> amd-gfx <<a href="mailto:amd-gfx-bounces@lists.freedesktop.org">amd-gfx-bounces@lists.freedesktop.org</a>>
<b>On Behalf Of </b>Shuotao Xu<br>
<b>Sent:</b> Wednesday, April 6, 2022 11:12 AM<br>
<b>To:</b> Grodzovsky, Andrey <<a href="mailto:Andrey.Grodzovsky@amd.com">Andrey.Grodzovsky@amd.com</a>>;
<a href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a><br>
<b>Cc:</b> Ziyue Yang <<a href="mailto:Ziyue.Yang@microsoft.com">Ziyue.Yang@microsoft.com</a>>; Lei Qu <<a href="mailto:Lei.Qu@microsoft.com">Lei.Qu@microsoft.com</a>>; Peng Cheng <<a href="mailto:pengc@microsoft.com">pengc@microsoft.com</a>>; Ran Shu <<a href="mailto:Ran.Shu@microsoft.com">Ran.Shu@microsoft.com</a>><br>
<b>Subject:</b> Re: [EXTERNAL] Re: Code Review Request for AMDGPU Hotplug Support</span><o:p></o:p></p>
</div>
</div>
<p class="MsoNormal"> <o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[CAUTION: External Email] </span>
<o:p></o:p></p>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">Hi Andrey,</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Thanks for your kind comment on linux patch submission protocol, please let me know if there is anyway to rectify it.
</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">dmesg is fine except with some warning during pci rescan after pci removal of an AMD MI100.
</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">The issue is that after this rocm application will return segfault with the amdgpu driver unless the entire amdgpu kernel module is unloaded and loaded, which we did not meet our hotplug requirement. The issues
 upon investigation are</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">1) kfd_lock is locked after hotplug, and kfd_open will return fault right away to libhsakmt .
</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">2) iolink/p2plink has anormalies after hotplug, and libhsakmt will found such anomalies and return error.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Our patch has been tested with a single-instance AMD MI100 GPU and showed it worked.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">I am attaching the dmesg after rescan anyway, which will show the warning and the segfault.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.054822] pci 0000:43:00.0: [1002:738c] type 00 class 0x038000</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.054856] pci 0000:43:00.0: reg 0x10: [mem 0x38b000000000-0x38b7ffffffff 64bit pref]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.054877] pci 0000:43:00.0: reg 0x18: [mem 0x38b800000000-0x38b8001fffff 64bit pref]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.054890] pci 0000:43:00.0: reg 0x20: [io  0xa000-0xa0ff]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.054904] pci 0000:43:00.0: reg 0x24: [mem 0xb8400000-0xb847ffff]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.054918] pci 0000:43:00.0: reg 0x30: [mem 0xb8480000-0xb849ffff pref]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.055134] pci 0000:43:00.0: PME# supported from D1 D2 D3hot D3cold</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.055217] pci 0000:43:00.0: 63.008 Gb/s available PCIe bandwidth, limited by 8.0 GT/s PCIe x8 link at 0000:3c:14.0 (capable of 252.048 Gb/s with 16.0 GT/s PCIe x16 link)</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.056001] pci 0000:43:00.0: Adding to iommu group 73</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.057943] pci 0000:43:00.0: BAR 0: assigned [mem 0x38b000000000-0x38b7ffffffff 64bit pref]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.057960] pci 0000:43:00.0: BAR 2: assigned [mem 0x38b800000000-0x38b8001fffff 64bit pref]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.057974] pci 0000:43:00.0: BAR 5: assigned [mem 0xb8400000-0xb847ffff]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.057981] pci 0000:43:00.0: BAR 6: assigned [mem 0xb8480000-0xb849ffff pref]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.057984] pci 0000:43:00.0: BAR 4: assigned [io  0xa000-0xa0ff]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058429] ======================================================</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058453] WARNING: possible circular locking dependency detected</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058477] 5.16.0-kfd+ #1 Not tainted</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058492] ------------------------------------------------------</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058515] bash/3632 is trying to acquire lock:</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058534] ffffadee20adfb50 ((work_completion)(&wfc.work)){+.+.}-{0:0}, at: __flush_work+0x2f5/0x470</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058554] [drm] initializing kernel modesetting (ARCTURUS 0x1002:0x738C 0x1002:0x0C34 0x01).</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058577]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">               but task is already holding lock:</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058580] ffffffffa3c62308</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058630] amdgpu 0000:43:00.0: amdgpu: Trusted Memory Zone (TMZ) feature not supported</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058638]  (</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058678] [drm] register mmio base: 0xB8400000</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058683] pci_rescan_remove_lock</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058694] [drm] register mmio size: 524288</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058713] ){+.+.}-{3:3}, at: rescan_store+0x55/0x90</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058773]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">               which lock already depends on the new lock.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058804]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">               the existing dependency chain (in reverse order) is:</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058819] [drm] add ip block number 0 <soc15_common></span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058831]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">               -> #1 (</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058854] [drm] add ip block number 1 <gmc_v9_0></span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058858] [drm] add ip block number 2 <vega20_ih></span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058874] pci_rescan_remove_lock</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058894] [drm] add ip block number 3 <psp></span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058915] ){+.+.}-{3:3}</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058931] [drm] add ip block number 4 <smu></span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058951] :</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058965] [drm] add ip block number 5 <gfx_v9_0></span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058986]        __mutex_lock+0xa4/0x990</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.058996] [drm] add ip block number 6 <sdma_v4_0></span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.059016]        i801_add_tco_spt.isra.20+0x2a/0x1a0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.059033] [drm] add ip block number 7 <vcn_v2_5></span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.059054]        i801_add_tco+0xf6/0x110</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.059075] [drm] add ip block number 8 <jpeg_v2_5></span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.059096]        i801_probe+0x402/0x860</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.059151]        local_pci_probe+0x40/0x90</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.059170]        work_for_cpu_fn+0x10/0x20</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.059189]        process_one_work+0x2a4/0x640</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.059208]        worker_thread+0x228/0x3f0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.059227]        kthread+0x16d/0x1a0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.059795]        ret_from_fork+0x1f/0x30</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.060337]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">               -> #0 ((work_completion)(&wfc.work)){+.+.}-{0:0}:</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.061405]        __lock_acquire+0x1552/0x1ac0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.061950]        lock_acquire+0x26c/0x300</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.062484]        __flush_work+0x315/0x470</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.063009]        work_on_cpu+0x98/0xc0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.063526]        pci_device_probe+0x1bc/0x1d0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.064036]        really_probe+0x102/0x450</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.064532]        __driver_probe_device+0x100/0x170</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.065020]        driver_probe_device+0x1f/0xa0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.065497]        __device_attach_driver+0x6b/0xe0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.065975]        bus_for_each_drv+0x6a/0xb0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.066449]        __device_attach+0xe2/0x160</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.066912]        pci_bus_add_device+0x4a/0x80</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.067365]        pci_bus_add_devices+0x2c/0x70</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.067812]        pci_bus_add_devices+0x65/0x70</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.068253]        pci_bus_add_devices+0x65/0x70</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.068688]        pci_bus_add_devices+0x65/0x70</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.068936] amdgpu 0000:43:00.0: amdgpu: Fetched VBIOS from ROM BAR</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.069109]        pci_bus_add_devices+0x65/0x70</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.069602] amdgpu: ATOM BIOS: 113-D3431401-X00</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.070058]        pci_bus_add_devices+0x65/0x70</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.070572] [drm] VCN(0) decode is enabled in VM mode</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.070997]        pci_rescan_bus+0x23/0x30</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.071000]        rescan_store+0x61/0x90</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.071003]        kernfs_fop_write_iter+0x132/0x1b0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.071501] [drm] VCN(1) decode is enabled in VM mode</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.071964]        new_sync_write+0x11f/0x1b0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.072432] [drm] VCN(0) encode is enabled in VM mode</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.072900]        vfs_write+0x35b/0x3b0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.073376] [drm] VCN(1) encode is enabled in VM mode</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.073847]        ksys_write+0xa7/0xe0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.074335] [drm] JPEG(0) JPEG decode is enabled in VM mode</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.074803]        do_syscall_64+0x34/0x80</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.074808]        entry_SYSCALL_64_after_hwframe+0x44/0xae</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.074811]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">               other info that might help us debug this:</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.074813]  Possible unsafe locking scenario:</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.075302] [drm] JPEG(1) JPEG decode is enabled in VM mode</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.075779]        CPU0                    CPU1</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.076361] amdgpu 0000:43:00.0: amdgpu: MEM ECC is active.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.076765]        ----                    ----</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.077265] amdgpu 0000:43:00.0: amdgpu: SRAM ECC is active.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.078649]   lock(pci_rescan_remove_lock);</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.078652]                                lock((work_completion)(&wfc.work));</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.078653]                                lock(pci_rescan_remove_lock);</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.078655]   lock((work_completion)(&wfc.work));</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.078656]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">                *** DEADLOCK ***</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.078656] 5 locks held by bash/3632:</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.078658]  #0: ffff9c39c7b89438</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.079612] amdgpu 0000:43:00.0: amdgpu: RAS INFO: ras initialized successfully, hardware ability[7fff] ras_mask[7fff]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.080089]  (</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.080602] [drm] vm size is 262144 GB, 4 levels, block size is 9-bit, fragment size is 9-bit</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.081082] sb_writers</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.081601] amdgpu 0000:43:00.0: amdgpu: VRAM: 32752M 0x0000008000000000 - 0x00000087FEFFFFFF (32752M used)</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.082102] #6</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.082630] amdgpu 0000:43:00.0: amdgpu: GART: 512M 0x0000000000000000 - 0x000000001FFFFFFF</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.083152] ){.+.+}-{0:0}</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.083687] amdgpu 0000:43:00.0: amdgpu: AGP: 267878400M 0x0000008800000000 - 0x0000FFFFFFFFFFFF</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.084210] , at: ksys_write+0xa7/0xe0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.085708] [drm] Detected VRAM RAM=32752M, BAR=32768M</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.086205]  #1:</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.086733] [drm] RAM width 4096bits HBM</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.087269] ffff9c5959011088</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.087890] [drm] amdgpu: 32752M of VRAM memory ready</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.088389]  (</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.088972] [drm] amdgpu: 32752M of GTT memory ready.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.089572] &of->mutex</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.090206] [drm] GART: num cpu pages 131072, num gpu pages 131072</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.090804] ){+.+.}-{3:3}, at: kernfs_fop_write_iter+0x103/0x1b0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.090808]  #2: ffff9c39c882a9e0 (kn->active#423){.+.+}-{0:0}, at: kernfs_fop_write_iter+0x10c/0x1b0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.091639] [drm] PCIE GART of 512M enabled.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.092117]  #3:</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.092801] [drm] PTB located at 0x0000008000000000</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.093480] ffffffffa3c62308</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.094566] amdgpu 0000:43:00.0: amdgpu: PSP runtime database doesn't exist</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.094822]  (pci_rescan_remove_lock){+.+.}-{3:3}, at: rescan_store+0x55/0x90</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.094827]  #4: ffff9c597392b248 (&dev->mutex){....}-{3:3}, at: __device_attach+0x39/0x160</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.094835]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">               stack backtrace:</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.097098] [drm] Found VCN firmware Version ENC: 1.1 DEC: 1 VEP: 0 Revision: 21</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.097467] CPU: 47 PID: 3632 Comm: bash Not tainted 5.16.0-kfd+ #1</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.098169] amdgpu 0000:43:00.0: amdgpu: Will use PSP to load VCN firmware</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.098839] Hardware name: Supermicro SYS-4029GP-TRT2/X11DPG-OT-CPU, BIOS 2.1 08/14/2018</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.098841] Call Trace:</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.098842]  <TASK></span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.098843]  dump_stack_lvl+0x44/0x57</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.098848]  check_noncircular+0x105/0x120</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.098853]  ? unwind_get_return_address+0x1b/0x30</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.112924]  ? register_lock_class+0x46/0x780</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.113630]  ? __lock_acquire+0x1552/0x1ac0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.114342]  __lock_acquire+0x1552/0x1ac0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.115050]  lock_acquire+0x26c/0x300</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.115755]  ? __flush_work+0x2f5/0x470</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.116460]  ? lock_is_held_type+0xdf/0x130</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.117177]  __flush_work+0x315/0x470</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.117890]  ? __flush_work+0x2f5/0x470</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.118604]  ? lock_is_held_type+0xdf/0x130</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.119305]  ? mark_held_locks+0x49/0x70</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.119981]  ? queue_work_on+0x2f/0x70</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.120645]  ? lockdep_hardirqs_on+0x79/0x100</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.121300]  work_on_cpu+0x98/0xc0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.121702] [drm] reserve 0x400000 from 0x87fec00000 for PSP TMR</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.121947]  ? __traceiter_workqueue_execute_end+0x40/0x40</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.123270]  ? pci_device_shutdown+0x60/0x60</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.123880]  pci_device_probe+0x1bc/0x1d0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.124475]  really_probe+0x102/0x450</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.125060]  __driver_probe_device+0x100/0x170</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.125641]  driver_probe_device+0x1f/0xa0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.126215]  __device_attach_driver+0x6b/0xe0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.126797]  ? driver_allows_async_probing+0x50/0x50</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.127383]  ? driver_allows_async_probing+0x50/0x50</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.127960]  bus_for_each_drv+0x6a/0xb0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.128528]  __device_attach+0xe2/0x160</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.129095]  pci_bus_add_device+0x4a/0x80</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.129659]  pci_bus_add_devices+0x2c/0x70</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.130213]  pci_bus_add_devices+0x65/0x70</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.130753]  pci_bus_add_devices+0x65/0x70</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.131283]  pci_bus_add_devices+0x65/0x70</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.131780]  pci_bus_add_devices+0x65/0x70</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.132270]  pci_bus_add_devices+0x65/0x70</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.132757]  pci_rescan_bus+0x23/0x30</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.133233]  rescan_store+0x61/0x90</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.133701]  kernfs_fop_write_iter+0x132/0x1b0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.134167]  new_sync_write+0x11f/0x1b0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.134627]  vfs_write+0x35b/0x3b0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.135062]  ksys_write+0xa7/0xe0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.135503]  do_syscall_64+0x34/0x80</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.135933]  entry_SYSCALL_64_after_hwframe+0x44/0xae</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.136358] RIP: 0033:0x7f0058a73224</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.136775] Code: 89 02 48 c7 c0 ff ff ff ff c3 66 2e 0f 1f 84 00 00 00 00 00 66 90 48 8d 05 c1 07 2e 00 8b 00 85 c0 75 13 b8 01 00 00 00 0f 05 <48> 3d 00 f0 ff ff 77 54 f3 c3 66 90 41 54 55 49 89 d4 53
 48 89 f5</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.137663] RSP: 002b:00007ffc4f4c71a8 EFLAGS: 00000246 ORIG_RAX: 0000000000000001</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.138121] RAX: ffffffffffffffda RBX: 0000000000000002 RCX: 00007f0058a73224</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.138590] RDX: 0000000000000002 RSI: 000055d466c24450 RDI: 0000000000000001</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.139064] RBP: 000055d466c24450 R08: 000000000000000a R09: 0000000000000001</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.139532] R10: 000000000000000a R11: 0000000000000246 R12: 00007f0058d4f760</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.140003] R13: 0000000000000002 R14: 00007f0058d4b2a0 R15: 00007f0058d4a760</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.140485]  </TASK></span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.183669] amdgpu 0000:43:00.0: amdgpu: HDCP: optional hdcp ta ucode is not available</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.184214] amdgpu 0000:43:00.0: amdgpu: DTM: optional dtm ta ucode is not available</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.184735] amdgpu 0000:43:00.0: amdgpu: RAP: optional rap ta ucode is not available</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.185234] amdgpu 0000:43:00.0: amdgpu: SECUREDISPLAY: securedisplay ta ucode is not available</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.185823] amdgpu 0000:43:00.0: amdgpu: use vbios provided pptable</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.186327] amdgpu 0000:43:00.0: amdgpu: smc_dpm_info table revision(format.content): 4.6</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.188783] amdgpu 0000:43:00.0: amdgpu: SMU is initialized successfully!</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.190039] [drm] kiq ring mec 2 pipe 1 q 0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.203608] [drm] VCN decode and encode initialized successfully(under DPG Mode).</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.204178] [drm] JPEG decode initialized successfully.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.246079] kfd kfd: amdgpu: Allocated 3969056 bytes on gart</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.327589] memmap_init_zone_device initialised 8388608 pages in 64ms</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.328139] amdgpu: HMM registered 32752MB device memory</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.328784] amdgpu: Virtual CRAT table created for GPU</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.329844] amdgpu: Topology: Add dGPU node [0x738c:0x1002]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.330387] kfd kfd: amdgpu: added device 1002:738c</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.330965] amdgpu 0000:43:00.0: amdgpu: SE 8, SH per SE 1, CU per SH 16, active_cu_number 72</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.331725] amdgpu 0000:43:00.0: amdgpu: ring comp_1.0.0 uses VM inv eng 0 on hub 0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.332296] amdgpu 0000:43:00.0: amdgpu: ring comp_1.1.0 uses VM inv eng 1 on hub 0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.332856] amdgpu 0000:43:00.0: amdgpu: ring comp_1.2.0 uses VM inv eng 4 on hub 0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.333414] amdgpu 0000:43:00.0: amdgpu: ring comp_1.3.0 uses VM inv eng 5 on hub 0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.333965] amdgpu 0000:43:00.0: amdgpu: ring comp_1.0.1 uses VM inv eng 6 on hub 0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.334507] amdgpu 0000:43:00.0: amdgpu: ring comp_1.1.1 uses VM inv eng 7 on hub 0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.335057] amdgpu 0000:43:00.0: amdgpu: ring comp_1.2.1 uses VM inv eng 8 on hub 0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.335594] amdgpu 0000:43:00.0: amdgpu: ring comp_1.3.1 uses VM inv eng 9 on hub 0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.336137] amdgpu 0000:43:00.0: amdgpu: ring kiq_2.1.0 uses VM inv eng 10 on hub 0</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.336679] amdgpu 0000:43:00.0: amdgpu: ring sdma0 uses VM inv eng 0 on hub 1</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.337234] amdgpu 0000:43:00.0: amdgpu: ring sdma1 uses VM inv eng 1 on hub 1</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.337790] amdgpu 0000:43:00.0: amdgpu: ring sdma2 uses VM inv eng 4 on hub 1</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.338343] amdgpu 0000:43:00.0: amdgpu: ring sdma3 uses VM inv eng 5 on hub 1</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.338906] amdgpu 0000:43:00.0: amdgpu: ring sdma4 uses VM inv eng 6 on hub 1</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.339448] amdgpu 0000:43:00.0: amdgpu: ring sdma5 uses VM inv eng 0 on hub 2</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.339987] amdgpu 0000:43:00.0: amdgpu: ring sdma6 uses VM inv eng 1 on hub 2</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.340519] amdgpu 0000:43:00.0: amdgpu: ring sdma7 uses VM inv eng 4 on hub 2</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.341041] amdgpu 0000:43:00.0: amdgpu: ring vcn_dec_0 uses VM inv eng 5 on hub 2</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.341570] amdgpu 0000:43:00.0: amdgpu: ring vcn_enc_0.0 uses VM inv eng 6 on hub 2</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.342101] amdgpu 0000:43:00.0: amdgpu: ring vcn_enc_0.1 uses VM inv eng 7 on hub 2</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.342630] amdgpu 0000:43:00.0: amdgpu: ring vcn_dec_1 uses VM inv eng 8 on hub 2</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.343152] amdgpu 0000:43:00.0: amdgpu: ring vcn_enc_1.0 uses VM inv eng 9 on hub 2</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.343657] amdgpu 0000:43:00.0: amdgpu: ring vcn_enc_1.1 uses VM inv eng 10 on hub 2</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.344136] amdgpu 0000:43:00.0: amdgpu: ring jpeg_dec_0 uses VM inv eng 11 on hub 2</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.344610] amdgpu 0000:43:00.0: amdgpu: ring jpeg_dec_1 uses VM inv eng 12 on hub 2</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.378213] amdgpu: Detected AMDGPU 6 Perf Events.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.387349] [drm] Initialized amdgpu 3.46.0 20150101 for 0000:43:00.0 on minor 1</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.388530] pcieport 0000:d7:00.0: bridge window [io  0x1000-0x0fff] to [bus d8] add_size 1000</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.389078] pcieport 0000:d7:00.0: BAR 13: no space for [io  size 0x1000]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.389600] pcieport 0000:d7:00.0: BAR 13: failed to assign [io  size 0x1000]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.390091] pcieport 0000:d7:00.0: BAR 13: no space for [io  size 0x1000]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  132.390568] pcieport 0000:d7:00.0: BAR 13: failed to assign [io  size 0x1000]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  155.359200] HelloWorld[3824]: segfault at 68 ip 00007f4c979f764e sp 00007ffc9b3bb610 error 4 in libamdhip64.so.4.4.21432-f9dccde4[7f4c979b3000+2eb000]</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">[  155.360268] Code: 48 8b 45 e8 64 48 33 04 25 28 00 00 00 74 05 e8 b8 c7 fb ff 48 8b 5d f8 c9 c3 f3 0f 1e fa 55 48 89 e5 48 89 7d f8 48 8b 45 f8 <48> 8b 40 68 5d c3 f3 0f 1e fa 55 48 89 e5 48 89 7d f8 48
 8b 45 f8</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Best regards,</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Shuotao</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal" style="margin-bottom:12.0pt"><b><span style="font-size:12.0pt;color:black">From:
</span></b><span style="font-size:12.0pt;color:black">Andrey Grodzovsky <<a href="mailto:andrey.grodzovsky@amd.com">andrey.grodzovsky@amd.com</a>><br>
<b>Date: </b>Wednesday, April 6, 2022 at 10:36 PM<br>
<b>To: </b>Shuotao Xu <<a href="mailto:shuotaoxu@microsoft.com">shuotaoxu@microsoft.com</a>>,
<a href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a> <<a href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a>><br>
<b>Cc: </b>Ziyue Yang <<a href="mailto:Ziyue.Yang@microsoft.com">Ziyue.Yang@microsoft.com</a>>, Lei Qu <<a href="mailto:Lei.Qu@microsoft.com">Lei.Qu@microsoft.com</a>>, Peng Cheng <<a href="mailto:pengc@microsoft.com">pengc@microsoft.com</a>>, Ran Shu <<a href="mailto:Ran.Shu@microsoft.com">Ran.Shu@microsoft.com</a>><br>
<b>Subject: </b>Re: [EXTERNAL] Re: Code Review Request for AMDGPU Hotplug Support</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">[You don't often get email from
<a href="mailto:andrey.grodzovsky@amd.com">andrey.grodzovsky@amd.com</a>. Learn why this is important at
<a href="https://nam11.safelinks.protection.outlook.com/?url=http%3A%2F%2Faka.ms%2FLearnAboutSenderIdentification.%255d&data=04%7C01%7CMukul.Joshi%40amd.com%7C6fa8b71a7017468299e608da18b3a649%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637849457140650516%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C2000&sdata=LbbAV1OQ4XQeexmn9Hbycdj4sTHqDpKccOJluVwIWpM%3D&reserved=0">
http://aka.ms/LearnAboutSenderIdentification.]</a><br>
<br>
Can you attach dmesg for the failure without your patch against<br>
amd-staging-drm-next ?<br>
<br>
Also, in general, patches for amdgpu upstream branches should be<br>
submitted to amd-gfx mailing list inline using git-send which makes it<br>
easy to comment and review them inline.<br>
<br>
Andrey<br>
<br>
On 2022-04-06 10:25, Shuotao Xu wrote:<br>
> Hi Andrey,<br>
><br>
> We just tried kernel 5.16 based on<br>
> <a href="https://nam11.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgitlab.freedesktop.org%2Fagd5f%2Flinux.git&data=04%7C01%7CMukul.Joshi%40amd.com%7C6fa8b71a7017468299e608da18b3a649%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637849457140650516%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C2000&sdata=5%2FFxe0DQhYILPSRl%2FWOzDWg2N3jzRXGsUhYHsYuJ0yE%3D&reserved=0">
https://nam06.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgitlab.freedesktop.org%2Fagd5f%2Flinux.git&amp;data=05%7C01%7Cshuotaoxu%40microsoft.com%7C93f1fcb8f60541f7b87308da17dae167%7C72f988bf86f141af91ab2d7cd011db47%7C1%7C0%7C637848526184858564%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C3000%7C%7C%7C&amp;sdata=jz51aMtsG7PIEfLy1jLvLGd%2BsBREvOFf9Gc6BZlmsmU%3D&amp;reserved=0</a><br>
> <<a href="https://nam11.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgitlab.freedesktop.org%2Fagd5f%2Flinux.git&data=04%7C01%7CMukul.Joshi%40amd.com%7C6fa8b71a7017468299e608da18b3a649%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637849457140650516%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C2000&sdata=5%2FFxe0DQhYILPSRl%2FWOzDWg2N3jzRXGsUhYHsYuJ0yE%3D&reserved=0">https://nam06.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgitlab.freedesktop.org%2Fagd5f%2Flinux.git&amp;data=05%7C01%7Cshuotaoxu%40microsoft.com%7C93f1fcb8f60541f7b87308da17dae167%7C72f988bf86f141af91ab2d7cd011db47%7C1%7C0%7C637848526184858564%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C3000%7C%7C%7C&amp;sdata=jz51aMtsG7PIEfLy1jLvLGd%2BsBREvOFf9Gc6BZlmsmU%3D&amp;reserved=0</a>><br>
> amd-staging-drm-next branch, and found out that hotplug did not work out<br>
> of box for Rocm compute stack.<br>
><br>
> We did not try the rendering stack since we currently are more focused<br>
> on AI workloads.<br>
><br>
> We have also created a patch against the amd-staging-drm-next branch to<br>
> enable hotplug for ROCM stack, which were sent in another later email<br>
> with same subject. I am attaching the patch in this email, in case that<br>
> you would want to delete that later email.<br>
><br>
> Best regards,<br>
><br>
> Shuotao<br>
><br>
> *From: *Andrey Grodzovsky <<a href="mailto:andrey.grodzovsky@amd.com">andrey.grodzovsky@amd.com</a>><br>
> *Date: *Wednesday, April 6, 2022 at 10:13 PM<br>
> *To: *Shuotao Xu <<a href="mailto:shuotaoxu@microsoft.com">shuotaoxu@microsoft.com</a>>,<br>
> <a href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a> <<a href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a>><br>
> *Cc: *Ziyue Yang <<a href="mailto:Ziyue.Yang@microsoft.com">Ziyue.Yang@microsoft.com</a>>, Lei Qu<br>
> <<a href="mailto:Lei.Qu@microsoft.com">Lei.Qu@microsoft.com</a>>, Peng Cheng <<a href="mailto:pengc@microsoft.com">pengc@microsoft.com</a>>, Ran Shu<br>
> <<a href="mailto:Ran.Shu@microsoft.com">Ran.Shu@microsoft.com</a>><br>
> *Subject: *[EXTERNAL] Re: Code Review Request for AMDGPU Hotplug Support<br>
><br>
> [You don't often get email from <a href="mailto:andrey.grodzovsky@amd.com">andrey.grodzovsky@amd.com</a>. Learn why<br>
> this is important at <a href="https://nam11.safelinks.protection.outlook.com/?url=http%3A%2F%2Faka.ms%2FLearnAboutSenderIdentification.%255d&data=04%7C01%7CMukul.Joshi%40amd.com%7C6fa8b71a7017468299e608da18b3a649%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637849457140650516%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C2000&sdata=LbbAV1OQ4XQeexmn9Hbycdj4sTHqDpKccOJluVwIWpM%3D&reserved=0">
http://aka.ms/LearnAboutSenderIdentification.]</a><br>
> <<a href="https://nam11.safelinks.protection.outlook.com/?url=http%3A%2F%2Faka.ms%2FLearnAboutSenderIdentification.%255d&data=04%7C01%7CMukul.Joshi%40amd.com%7C6fa8b71a7017468299e608da18b3a649%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637849457140806742%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C2000&sdata=RLbrnUoTh8SIBZsv9JiejpNMcBzS4BSZ2bswvPNHHd0%3D&reserved=0">https://nam06.safelinks.protection.outlook.com/?url=http%3A%2F%2Faka.ms%2FLearnAboutSenderIdentification.%255d&amp;data=05%7C01%7Cshuotaoxu%40microsoft.com%7C93f1fcb8f60541f7b87308da17dae167%7C72f988bf86f141af91ab2d7cd011db47%7C1%7C0%7C637848526184858564%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C3000%7C%7C%7C&amp;sdata=HfSwu6SWfoCYyscJqGFdKHBPtaj%2BKB4lyo13zkm6hi4%3D&amp;reserved=0</a>><br>
><br>
> Looks like you are using 5.13 kernel for this work, FYI we added<br>
> hot plug support for the graphic stack in 5.14 kernel (see<br>
> <a href="https://nam11.safelinks.protection.outlook.com/?url=https%3A%2F%2Fwww.phoronix.com%2Fscan.php%3Fpage%3Dnews_item%26px%3DLinux-5.14-AMDGPU-Hot-Unplug&data=04%7C01%7CMukul.Joshi%40amd.com%7C6fa8b71a7017468299e608da18b3a649%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637849457140806742%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C2000&sdata=MHTv9TxiEISAwOKUfW7shx7NTm82iRg4Tljz%2F6K4cYw%3D&reserved=0">
https://nam06.safelinks.protection.outlook.com/?url=https%3A%2F%2Fwww.phoronix.com%2Fscan.php%3Fpage%3Dnews_item%26px%3DLinux-5.14-AMDGPU-Hot-Unplug&amp;data=05%7C01%7Cshuotaoxu%40microsoft.com%7C93f1fcb8f60541f7b87308da17dae167%7C72f988bf86f141af91ab2d7cd011db47%7C1%7C0%7C637848526184858564%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C3000%7C%7C%7C&amp;sdata=4l9mT8zNR%2FvqsEFr7noIDqKf16IGN8xmO2T6jnpipzo%3D&amp;reserved=0)</a><br>
> <<a href="https://nam11.safelinks.protection.outlook.com/?url=https%3A%2F%2Fwww.phoronix.com%2Fscan.php%3Fpage%3Dnews_item%26px%3DLinux-5.14-AMDGPU-Hot-Unplug&data=04%7C01%7CMukul.Joshi%40amd.com%7C6fa8b71a7017468299e608da18b3a649%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637849457140806742%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C2000&sdata=MHTv9TxiEISAwOKUfW7shx7NTm82iRg4Tljz%2F6K4cYw%3D&reserved=0">https://nam06.safelinks.protection.outlook.com/?url=https%3A%2F%2Fwww.phoronix.com%2Fscan.php%3Fpage%3Dnews_item%26px%3DLinux-5.14-AMDGPU-Hot-Unplug&amp;data=05%7C01%7Cshuotaoxu%40microsoft.com%7C93f1fcb8f60541f7b87308da17dae167%7C72f988bf86f141af91ab2d7cd011db47%7C1%7C0%7C637848526184858564%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C3000%7C%7C%7C&amp;sdata=4l9mT8zNR%2FvqsEFr7noIDqKf16IGN8xmO2T6jnpipzo%3D&amp;reserved=0</a>><br>
><br>
><br>
> I am not sure about the code part since it all touches KFD driver (KFD<br>
> team can comment on that) - but I was just wondering if you try 5.14<br>
> kernel would things just work for you out of the box ?<br>
><br>
> Andrey<br>
><br>
> On 2022-04-05 22:45, Shuotao Xu wrote:<br>
>> Dear AMD Colleagues,<br>
>><br>
>> We are from Microsoft Research, and are working on GPU disaggregation<br>
>> technology.<br>
>><br>
>> We have created a new pull requestAdd PCIe hotplug support for amdgpu by<br>
>> xushuotao · Pull Request #131 · RadeonOpenCompute/ROCK-Kernel-Driver<br>
>> (github.com)<br>
>> <<a href="https://nam11.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2FRadeonOpenCompute%2FROCK-Kernel-Driver%2Fpull%2F131&data=04%7C01%7CMukul.Joshi%40amd.com%7C6fa8b71a7017468299e608da18b3a649%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637849457140806742%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C2000&sdata=BV2K%2FEsSiowqFwVc1XQ8uAKSI6aQItxdV%2BStAjliGN8%3D&reserved=0">https://nam06.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2FRadeonOpenCompute%2FROCK-Kernel-Driver%2Fpull%2F131&amp;data=05%7C01%7Cshuotaoxu%40microsoft.com%7C93f1fcb8f60541f7b87308da17dae167%7C72f988bf86f141af91ab2d7cd011db47%7C1%7C0%7C637848526184858564%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C3000%7C%7C%7C&amp;sdata=qEeZR6R95jrjAaltd1MnpyFedOiVZaNQuCxcoNog90g%3D&amp;reserved=0<br>
</a>> <<a href="https://nam11.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2FRadeonOpenCompute%2FROCK-Kernel-Driver%2Fpull%2F131&data=04%7C01%7CMukul.Joshi%40amd.com%7C6fa8b71a7017468299e608da18b3a649%7C3dd8961fe4884e608e11a82d994e183d%7C0%7C0%7C637849457140806742%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C2000&sdata=BV2K%2FEsSiowqFwVc1XQ8uAKSI6aQItxdV%2BStAjliGN8%3D&reserved=0">https://nam06.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2FRadeonOpenCompute%2FROCK-Kernel-Driver%2Fpull%2F131&amp;data=05%7C01%7Cshuotaoxu%40microsoft.com%7C93f1fcb8f60541f7b87308da17dae167%7C72f988bf86f141af91ab2d7cd011db47%7C1%7C0%7C637848526184858564%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C3000%7C%7C%7C&amp;sdata=qEeZR6R95jrjAaltd1MnpyFedOiVZaNQuCxcoNog90g%3D&amp;reserved=0</a>>>in<br>
>> ROCK-Kernel-Driver, which will enable PCIe hot-plug support for amdgpu.<br>
>><br>
>> We believe the support of hot-plug of GPU devices can open doors for<br>
>> many advanced applications in data center in the next few years, and we<br>
>> would like to have some reviewers on this PR so we can continue further<br>
>> technical discussions around this feature.<br>
>><br>
>> Would you please help review this PR?<br>
>><br>
>> Thank you very much!<br>
>><br>
>> Best regards,<br>
>><br>
>> Shuotao Xu<br>
>><br>
></span><o:p></o:p></p>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</body>
</html>