<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none;"> P {margin-top:0;margin-bottom:0;} </style>
</head>
<body dir="ltr">
<p style="font-family:Arial;font-size:10pt;color:#0000FF;margin:5pt;font-style:normal;font-weight:normal;text-decoration:none;" align="Left">
[AMD Official Use Only - General]<br>
</p>
<br>
<div>
<div style="font-family: Aptos, Aptos_EmbeddedFont, Aptos_MSFontService, Calibri, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
How about this condition:</div>
<div style="font-family: Aptos, Aptos_EmbeddedFont, Aptos_MSFontService, Calibri, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
<br>
</div>
<div style="font-family: Aptos, Aptos_EmbeddedFont, Aptos_MSFontService, Calibri, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
<font size="3" face="Times New Roman"><span style="font-size:12pt"><font size="2"><span style="font-size:11pt" class="ContentPasted0 ContentPasted1">if ((amdgpu_in_reset(adev) || amdgpu_ras_intr_triggered()) &&</span></font></span></font></div>
<div style="font-family: Aptos, Aptos_EmbeddedFont, Aptos_MSFontService, Calibri, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
<font size="3" face="Times New Roman"><span style="font-size:12pt"><font size="2"><span style="font-size:11pt" class="ContentPasted0">           mca_funcs && mca_funcs->mca_set_debug_mode)</span></font></span></font><br>
</div>
<div style="font-family: Aptos, Aptos_EmbeddedFont, Aptos_MSFontService, Calibri, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
<br>
</div>
<div style="font-family: Aptos, Aptos_EmbeddedFont, Aptos_MSFontService, Calibri, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
I use <font size="3" face="Times New Roman"><span style="font-size:12pt"><font size="2"><span style="font-size:11pt" class="ContentPasted0 ContentPasted1 ContentPasted2">amdgpu_in_reset</span></font></span></font> to skip touching it in all gpu resets, not
 only for the resets triggered by ras fatal error.<br>
</div>
<div style="font-family: Aptos, Aptos_EmbeddedFont, Aptos_MSFontService, Calibri, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
<br>
</div>
<div style="font-family: Aptos, Aptos_EmbeddedFont, Aptos_MSFontService, Calibri, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
Regards,</div>
<div style="font-family: Aptos, Aptos_EmbeddedFont, Aptos_MSFontService, Calibri, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
Tao<br>
</div>
<div id="appendonsend"></div>
<div style="font-family: Aptos, Aptos_EmbeddedFont, Aptos_MSFontService, Calibri, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<br>
</div>
<hr tabindex="-1" style="display:inline-block; width:98%">
<div id="divRplyFwdMsg" dir="ltr"><font style="font-size: 11pt; color: rgb(0, 0, 0);" face="Calibri, sans-serif"><b>From:</b> Zhang, Hawking <Hawking.Zhang@amd.com><br>
<b>Sent:</b> Thursday, October 12, 2023 9:14 PM<br>
<b>To:</b> Zhou1, Tao <Tao.Zhou1@amd.com>; amd-gfx@lists.freedesktop.org <amd-gfx@lists.freedesktop.org>; Yang, Stanley <Stanley.Yang@amd.com>; Li, Candice <Candice.Li@amd.com>; Chai, Thomas <YiPeng.Chai@amd.com>; Wang, Yang(Kevin) <KevinYang.Wang@amd.com><br>
<b>Subject:</b> RE: [PATCH 4/5] drm/amdgpu: bypass RAS error reset in some conditions</font>
<div> </div>
</div>
<div class="BodyFragment"><font size="3" face="Times New Roman"><span style="font-size:12pt"><a name="BM_BEGIN" data-loopstyle="linkonly"></a>
<div><font size="2"><span style="font-size:11pt" class="elementToProof">[AMD Official Use Only - General]<br>
<br>
-       if (!amdgpu_ras_is_supported(adev, block))<br>
+       /* skip ras error reset in gpu reset */<br>
+       if (amdgpu_in_reset(adev) &&<br>
+           mca_funcs && mca_funcs->mca_set_debug_mode)<br>
+               return 0;<br>
<br>
We should check RAS in_recovery flag in such case. Reset domain is locked in relative late phase, at least *after* error counter harvest. Please double check.<br>
<br>
Regards,<br>
Hawking<br>
-----Original Message-----<br>
From: Zhou1, Tao <Tao.Zhou1@amd.com><br>
Sent: Thursday, October 12, 2023 17:01<br>
To: amd-gfx@lists.freedesktop.org; Yang, Stanley <Stanley.Yang@amd.com>; Zhang, Hawking <Hawking.Zhang@amd.com>; Li, Candice <Candice.Li@amd.com>; Chai, Thomas <YiPeng.Chai@amd.com>; Wang, Yang(Kevin) <KevinYang.Wang@amd.com><br>
Cc: Zhou1, Tao <Tao.Zhou1@amd.com><br>
Subject: [PATCH 4/5] drm/amdgpu: bypass RAS error reset in some conditions<br>
<br>
PMFW is responsible for RAS error reset in some conditions, driver can skip the operation.<br>
<br>
Signed-off-by: Tao Zhou <tao.zhou1@amd.com><br>
---<br>
 drivers/gpu/drm/amd/amdgpu/amdgpu_ras.c | 18 ++++++++++++++++--<br>
 1 file changed, 16 insertions(+), 2 deletions(-)<br>
<br>
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_ras.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_ras.c<br>
index 91ed4fd96ee1..6dddb0423411 100644<br>
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_ras.c<br>
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_ras.c<br>
@@ -1105,11 +1105,18 @@ int amdgpu_ras_reset_error_count(struct amdgpu_device *adev,<br>
                enum amdgpu_ras_block block)<br>
 {<br>
        struct amdgpu_ras_block_object *block_obj = amdgpu_ras_get_ras_block(adev, block, 0);<br>
+       const struct amdgpu_mca_smu_funcs *mca_funcs = adev->mca.mca_funcs;<br>
<br>
        if (!block_obj || !block_obj->hw_ops)<br>
                return 0;<br>
<br>
-       if (!amdgpu_ras_is_supported(adev, block))<br>
+       /* skip ras error reset in gpu reset */<br>
+       if (amdgpu_in_reset(adev) &&<br>
+           mca_funcs && mca_funcs->mca_set_debug_mode)<br>
+               return 0;<br>
+<br>
+       if (!amdgpu_ras_is_supported(adev, block) ||<br>
+           !amdgpu_ras_get_mca_debug_mode(adev))<br>
                return 0;<br>
<br>
        if (block_obj->hw_ops->reset_ras_error_count)<br>
@@ -1122,6 +1129,7 @@ int amdgpu_ras_reset_error_status(struct amdgpu_device *adev,<br>
                enum amdgpu_ras_block block)<br>
 {<br>
        struct amdgpu_ras_block_object *block_obj = amdgpu_ras_get_ras_block(adev, block, 0);<br>
+       const struct amdgpu_mca_smu_funcs *mca_funcs = adev->mca.mca_funcs;<br>
<br>
        if (!block_obj || !block_obj->hw_ops) {<br>
                dev_dbg_once(adev->dev, "%s doesn't config RAS function\n", @@ -1129,7 +1137,13 @@ int amdgpu_ras_reset_error_status(struct amdgpu_device *adev,<br>
                return 0;<br>
        }<br>
<br>
-       if (!amdgpu_ras_is_supported(adev, block))<br>
+       /* skip ras error reset in gpu reset */<br>
+       if (amdgpu_in_reset(adev) &&<br>
+           mca_funcs && mca_funcs->mca_set_debug_mode)<br>
+               return 0;<br>
+<br>
+       if (!amdgpu_ras_is_supported(adev, block) ||<br>
+           !amdgpu_ras_get_mca_debug_mode(adev))<br>
                return 0;<br>
<br>
        if (block_obj->hw_ops->reset_ras_error_count)<br>
--<br>
2.35.1<br>
<br>
</span></font></div>
</span></font></div>
</div>
</body>
</html>