<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
</head>
<body>
<div>Just a gentle ping.</div>
<div><br>
</div>
<div>Andrey</div>
<hr style="display:inline-block;width:98%" tabindex="-1">
<div id="divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" style="font-size:11pt" color="#000000"><b>From:</b> Grodzovsky, Andrey<br>
<b>Sent:</b> 26 January 2022 10:52<br>
<b>To:</b> Christian König <ckoenig.leichtzumerken@gmail.com>; Koenig, Christian <Christian.Koenig@amd.com>; Lazar, Lijo <Lijo.Lazar@amd.com>; dri-devel@lists.freedesktop.org <dri-devel@lists.freedesktop.org>; amd-gfx@lists.freedesktop.org <amd-gfx@lists.freedesktop.org>;
 Chen, JingWen <JingWen.Chen2@amd.com><br>
<b>Cc:</b> Chen, Horace <Horace.Chen@amd.com>; Liu, Monk <Monk.Liu@amd.com><br>
<b>Subject:</b> Re: [RFC v2 4/8] drm/amdgpu: Serialize non TDR gpu recovery with TDRs</font>
<div> </div>
</div>
<div>
<p>JingWen - could you maybe give those patches a try on SRIOV XGMI system ? If you see issues maybe you could let me connect and debug. My SRIOV XGMI system which Shayun kindly arranged for me is not loading the driver with my drm-misc-next branch even without
 my patches.<br>
</p>
<p>Andrey<br>
</p>
<div class="x_moz-cite-prefix">On 2022-01-17 14:21, Andrey Grodzovsky wrote:<br>
</div>
<blockquote type="cite">
<p><br>
</p>
<div class="x_moz-cite-prefix">On 2022-01-17 2:17 p.m., Christian König wrote:<br>
</div>
<blockquote type="cite">Am 17.01.22 um 20:14 schrieb Andrey Grodzovsky:<br>
<blockquote type="cite">
<p>Ping on the question</p>
</blockquote>
<br>
Oh, my! That was already more than a week ago and is completely swapped out of my head again.<br>
<br>
<blockquote type="cite">
<p>Andrey<br>
</p>
<div class="x_moz-cite-prefix">On 2022-01-05 1:11 p.m., Andrey Grodzovsky wrote:<br>
</div>
<blockquote type="cite">
<blockquote type="cite" style="color:#007cff">
<blockquote type="cite" style="color:#007cff">Also, what about having the reset_active or in_reset flag in the reset_domain itself?
<br>
</blockquote>
<br>
Of hand that sounds like a good idea. <br>
</blockquote>
<br>
<br>
What then about the adev->reset_sem semaphore ? Should we also move this to reset_domain ?  Both of the moves have functional
<br>
implications only for XGMI case because there will be contention over accessing those single instance variables from multiple devices
<br>
while now each device has it's own copy. <br>
</blockquote>
</blockquote>
<br>
Since this is a rw semaphore that should be unproblematic I think. It could just be that the cache line of the lock then plays ping/pong between the CPU cores.<br>
<br>
<blockquote type="cite">
<blockquote type="cite"><br>
What benefit the centralization into reset_domain gives - is it for example to prevent one device in a hive trying to access through MMIO another one's
<br>
VRAM (shared FB memory) while the other one goes through reset ? <br>
</blockquote>
</blockquote>
<br>
I think that this is the killer argument for a centralized lock, yes.<br>
</blockquote>
<p><br>
</p>
<p>np, i will add a patch with centralizing both flag into reset domain and resend.</p>
<p>Andrey</p>
<p><br>
</p>
<blockquote type="cite"><br>
Christian.<br>
<br>
<blockquote type="cite">
<blockquote type="cite"><br>
Andrey </blockquote>
</blockquote>
<br>
</blockquote>
</blockquote>
</div>
</body>
</html>