<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Exchange Server">
<!-- converted from rtf -->
<style><!-- .EmailQuote { margin-left: 1pt; padding-left: 4pt; border-left: #800000 2px solid; } --></style>
</head>
<body>
<font face="Times New Roman" size="3"><span style="font-size:12pt;"><a name="_msipheader87abd423"></a>
<div><font face="Arial" size="2" color="#317100"><span style="font-size:10pt;">[AMD Public Use]<br>

</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Hi Hawking,</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">I submitted one new patch to address these rules just now. Please review.</span></font></div>
<div><font size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Regards,</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Guchun</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="DengXian" size="2"><span style="font-size:11pt;">_____________________________________________<br>

<b>From:</b> Zhang, Hawking <Hawking.Zhang@amd.com> <br>

<b>Sent:</b> Friday, April 10, 2020 1:07 PM<br>

<b>To:</b> Chen, Guchun <Guchun.Chen@amd.com>; amd-gfx@lists.freedesktop.org; Li, Dennis <Dennis.Li@amd.com>; Zhou1, Tao <Tao.Zhou1@amd.com>; Clements, John <John.Clements@amd.com><br>

<b>Subject:</b> RE: [PATCH] drm/amdgpu: add uncorrectable error count print in UMC ecc irq cb</span></font></div>
<div><font size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font size="2"><span style="font-size:11pt;"> </span></font></div>
<a name="_msipheadera92e061b"></a>
<div><font face="Arial" size="2" color="#0078D7"><span style="font-size:10pt;">[AMD Official Use Only - Internal Distribution Only]<br>

</span></font></div>
<div><font face="Calibri" size="2" color="#2F5496"><span style="font-size:11pt;">Hi Guchun,</span></font></div>
<div><font face="Calibri" size="2" color="#2F5496"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2" color="#2F5496"><span style="font-size:11pt;">I put all the rules together. Please make the patch accordingly.</span></font></div>
<div><font face="Calibri" size="2" color="#2F5496"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2" color="#2F5496"><span style="font-size:11pt;">1). Use "correctable/uncorrectable *hardware* error", instead of just "correctable/uncorrectable error" in all callback functions that prints RAS error counters</span></font></div>
<div><font face="Calibri" size="2" color="#2F5496"><span style="font-size:11pt;">2). Add wording "no user action necessary" for all the "correctable error" related kernel messages</span></font></div>
<div><font face="Calibri" size="2" color="#2F5496"><span style="font-size:11pt;">3). For the sync flood interrupt, let's not just indicate ATHUB_ERROR_EVENT type, but also "uncorrectable hardware error (ERREVENT_ATHUB_INT) detected". And so does the BIF interrupt
for the UE.</span></font></div>
<div><font face="Calibri" size="2" color="#2F5496"><span style="font-size:11pt;">4). Replace DRM_INFO with dev_info for all the RAS related kernel messaging.</span></font></div>
<div><font face="Calibri" size="2" color="#2F5496"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2" color="#2F5496"><span style="font-size:11pt;">Regards,<br>

Hawking</span></font></div>
<div><font size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">-----Original Message-----<br>

From: Zhang, Hawking <br>

Sent: Friday, April 10, 2020 13:05<br>

To: Chen, Guchun <<a href="mailto:Guchun.Chen@amd.com"><font color="#0563C1"><u>Guchun.Chen@amd.com</u></font></a>>; 'amd-gfx@lists.freedesktop.org' <<a href="mailto:amd-gfx@lists.freedesktop.org"><font color="#0563C1"><u>amd-gfx@lists.freedesktop.org</u></font></a>>;
Li, Dennis <<a href="mailto:Dennis.Li@amd.com"><font color="#0563C1"><u>Dennis.Li@amd.com</u></font></a>>; Zhou1, Tao <<a href="mailto:Tao.Zhou1@amd.com"><font color="#0563C1"><u>Tao.Zhou1@amd.com</u></font></a>>; Clements, John <<a href="mailto:John.Clements@amd.com"><font color="#0563C1"><u>John.Clements@amd.com</u></font></a>><br>

Subject: RE: [PATCH] drm/amdgpu: add uncorrectable error count print in UMC ecc irq cb</span></font></div>
<div><font size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">[AMD Official Use Only - Internal Distribution Only]</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">And some more rules in RAS wording in kernel message.</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">1). Use "correctable/uncorrectable *hardware* error", instead of just "correctable/uncorrectable error" in all callback functions that prints RAS error counters 2). Add wording "no user action
necessary" for all the "correctable error" related kernel messages 3). For the sync flood interrupt, let's not just indicate ATHUB_ERROR_EVENT type, but also "uncorrectable hardware error (ERREVENT_ATHUB_INT) detected". And so does the BIF interrupt for the
ue.</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Regards,</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Hawking</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">-----Original Message-----</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">From: Zhang, Hawking</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Sent: Friday, April 10, 2020 12:57</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">To: Chen, Guchun <<a href="mailto:Guchun.Chen@amd.com">Guchun.Chen@amd.com</a>>; <a href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a>; Li, Dennis <<a href="mailto:Dennis.Li@amd.com">Dennis.Li@amd.com</a>>;
Zhou1, Tao <<a href="mailto:Tao.Zhou1@amd.com">Tao.Zhou1@amd.com</a>>; Clements, John <<a href="mailto:John.Clements@amd.com">John.Clements@amd.com</a>></span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Subject: RE: [PATCH] drm/amdgpu: add uncorrectable error count print in UMC ecc irq cb</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">[AMD Official Use Only - Internal Distribution Only]</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Hello Guchun,</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Besides this, could you please also make a patch to replace DRM_INFO with dev_info in amdgpu_ras_check_supported. Basically, we'd prefer to have device bdf as the prefix in RAS related wording
in kernel message, instead of DRM pre-fix.</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Please also have a review again on the other RAS wording in case there is still use DRM_INFO for the print out message. We shall let user know exactly gpu device for any RAS error information.</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Regards,</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Hawking</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">-----Original Message-----</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">From: Chen, Guchun <<a href="mailto:Guchun.Chen@amd.com">Guchun.Chen@amd.com</a>></span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Sent: Friday, April 10, 2020 11:55</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">To: <a href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a>; Zhang, Hawking <<a href="mailto:Hawking.Zhang@amd.com">Hawking.Zhang@amd.com</a>>; Li, Dennis <<a href="mailto:Dennis.Li@amd.com">Dennis.Li@amd.com</a>>;
Zhou1, Tao <<a href="mailto:Tao.Zhou1@amd.com">Tao.Zhou1@amd.com</a>>; Clements, John <<a href="mailto:John.Clements@amd.com">John.Clements@amd.com</a>></span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Cc: Chen, Guchun <<a href="mailto:Guchun.Chen@amd.com">Guchun.Chen@amd.com</a>></span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Subject: [PATCH] drm/amdgpu: add uncorrectable error count print in UMC ecc irq cb</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Uncorrectable error count printing is missed when issuing UMC UE injection. When going to the error count log function in GPU recover work thread, there is no chance to get correct error count
value by last error injection and print, because the error status register is automatically cleared after reading in UMC ecc irq callback. So add such message printing in UMC ecc irq cb to be consistent with other RAS error interrupt cases.</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">Signed-off-by: Guchun Chen <<a href="mailto:guchun.chen@amd.com">guchun.chen@amd.com</a>></span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">---</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> drivers/gpu/drm/amd/amdgpu/amdgpu_umc.c | 3 +++</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> 1 file changed, 3 insertions(+)</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_umc.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_umc.c</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">index f4d40855147b..267f7c30f4dd 100644</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_umc.c</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_umc.c</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">@@ -121,6 +121,9 @@ int amdgpu_umc_process_ras_data_cb(struct amdgpu_device *adev,</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;"> </span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">         /* only uncorrectable error needs gpu reset */</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">         if (err_data->ue_count) {</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">+               dev_info(adev->dev, "%ld uncorrectable errors detected in UMC block\n",</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">+                       err_data->ue_count);</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">+</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">                 if (err_data->err_addr_cnt &&</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">                     amdgpu_ras_add_bad_pages(adev, err_data->err_addr,</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">                                                 err_data->err_addr_cnt))</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">--</span></font></div>
<div><font face="Calibri" size="2"><span style="font-size:11pt;">2.17.1</span></font></div>
<div><font size="2"><span style="font-size:11pt;"> </span></font></div>
</span></font>
</body>
</html>