<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Consolas;
        panose-1:2 11 6 9 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
pre
        {mso-style-priority:99;
        mso-style-link:"HTML Preformatted Char";
        margin:0in;
        font-size:10.0pt;
        font-family:"Courier New";}
span.HTMLPreformattedChar
        {mso-style-name:"HTML Preformatted Char";
        mso-style-priority:99;
        mso-style-link:"HTML Preformatted";
        font-family:Consolas;}
span.EmailStyle21
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;
        mso-ligatures:none;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-US" link="blue" vlink="purple" style="word-wrap:break-word">
<p style="font-family:Arial;font-size:10pt;color:#0000FF;margin:5pt;font-style:normal;font-weight:normal;text-decoration:none;" align="Left">
[AMD Official Use Only - General]<br>
</p>
<br>
<div>
<div class="WordSection1">
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<div style="border:none;border-left:solid blue 1.5pt;padding:0in 0in 0in 4.0pt">
<div>
<div style="border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b>From:</b> Zhu, James <James.Zhu@amd.com> <br>
<b>Sent:</b> Monday, November 13, 2023 10:20 AM<br>
<b>To:</b> Yat Sin, David <David.YatSin@amd.com>; Zhu, James <James.Zhu@amd.com>; amd-gfx@lists.freedesktop.org<br>
<b>Cc:</b> Kuehling, Felix <Felix.Kuehling@amd.com>; Greathouse, Joseph <Joseph.Greathouse@amd.com><br>
<b>Subject:</b> Re: [PATCH 19/24] drm/amdkfd: enable pc sampling stop<o:p></o:p></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p><o:p> </o:p></p>
<div>
<p class="MsoNormal">On 2023-11-10 14:07, Yat Sin, David wrote:<o:p></o:p></p>
</div>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<pre>[AMD Official Use Only - General]<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<pre>-----Original Message-----<o:p></o:p></pre>
<pre>From: Zhu, James <a href="mailto:James.Zhu@amd.com"><James.Zhu@amd.com></a><o:p></o:p></pre>
<pre>Sent: Friday, November 3, 2023 9:12 AM<o:p></o:p></pre>
<pre>To: <a href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a><o:p></o:p></pre>
<pre>Cc: Kuehling, Felix <a href="mailto:Felix.Kuehling@amd.com"><Felix.Kuehling@amd.com></a>; Greathouse, Joseph<o:p></o:p></pre>
<pre><a href="mailto:Joseph.Greathouse@amd.com"><Joseph.Greathouse@amd.com></a>; Yat Sin, David <a href="mailto:David.YatSin@amd.com"><David.YatSin@amd.com></a>; Zhu,<o:p></o:p></pre>
<pre>James <a href="mailto:James.Zhu@amd.com"><James.Zhu@amd.com></a><o:p></o:p></pre>
<pre>Subject: [PATCH 19/24] drm/amdkfd: enable pc sampling stop<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Enable pc sampling stop.<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Signed-off-by: James Zhu <a href="mailto:James.Zhu@amd.com"><James.Zhu@amd.com></a><o:p></o:p></pre>
<pre>---<o:p></o:p></pre>
<pre> drivers/gpu/drm/amd/amdkfd/kfd_pc_sampling.c | 28 +++++++++++++++++--<o:p></o:p></pre>
<pre>-<o:p></o:p></pre>
<pre> drivers/gpu/drm/amd/amdkfd/kfd_priv.h        |  2 ++<o:p></o:p></pre>
<pre> 2 files changed, 27 insertions(+), 3 deletions(-)<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>diff --git a/drivers/gpu/drm/amd/amdkfd/kfd_pc_sampling.c<o:p></o:p></pre>
<pre>b/drivers/gpu/drm/amd/amdkfd/kfd_pc_sampling.c<o:p></o:p></pre>
<pre>index 33d003ca0093..2c4ac5b4cc4b 100644<o:p></o:p></pre>
<pre>--- a/drivers/gpu/drm/amd/amdkfd/kfd_pc_sampling.c<o:p></o:p></pre>
<pre>+++ b/drivers/gpu/drm/amd/amdkfd/kfd_pc_sampling.c<o:p></o:p></pre>
<pre>@@ -108,10 +108,32 @@ static int kfd_pc_sample_start(struct<o:p></o:p></pre>
<pre>kfd_process_device *pdd,<o:p></o:p></pre>
<pre>      return 0;<o:p></o:p></pre>
<pre> }<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>-static int kfd_pc_sample_stop(struct kfd_process_device *pdd)<o:p></o:p></pre>
<pre>+static int kfd_pc_sample_stop(struct kfd_process_device *pdd,<o:p></o:p></pre>
<pre>+                                     struct pc_sampling_entry *pcs_entry)<o:p></o:p></pre>
<pre> {<o:p></o:p></pre>
<pre>-     return -EINVAL;<o:p></o:p></pre>
<pre>+     bool pc_sampling_stop = false;<o:p></o:p></pre>
<pre>+<o:p></o:p></pre>
<pre>+     pcs_entry->enabled = false;<o:p></o:p></pre>
<pre>+     mutex_lock(&pdd->dev->pcs_data.mutex);<o:p></o:p></pre>
</blockquote>
<pre>For the START/STOP/DESTROY ioctls, I think we can hold pdd->dev->pcs_data.mutex through the whole IOCTL. Then we would not have to deal with the intermediate states where the START/STOP/DESTROY are happening at the same time.<o:p></o:p></pre>
</blockquote>
<p class="MsoNormal" style="margin-left:5.25pt">[JZ] pdd->dev->pcs_data.mutex is per device, not per process. In the future, also it will share protection within different pc sampling methods on the same devices. So I don't think a bigger lock here is good
 idea.<br>
[David] I think the CREATE/START/STOP/DESTROY actions are not time critical. So if two processes are using the same GPU, it is ok for amdgpu to block the 2<sup>nd</sup> process until amdgpu has fully completed the request from the 1<sup>st</sup> process. I
 think we are making the code more complex for a use-case that would be very rare.<br>
<br>
<o:p></o:p></p>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<pre>+     pdd->dev->pcs_data.hosttrap_entry.base.active_count--;<o:p></o:p></pre>
<pre>+     if (!pdd->dev->pcs_data.hosttrap_entry.base.active_count) {<o:p></o:p></pre>
<pre>+             WRITE_ONCE(pdd->dev-<o:p></o:p></pre>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<pre>pcs_data.hosttrap_entry.base.stop_enable, true);<o:p></o:p></pre>
</blockquote>
<pre>+             pc_sampling_stop = true;<o:p></o:p></pre>
<pre>+     }<o:p></o:p></pre>
<pre>+     mutex_unlock(&pdd->dev->pcs_data.mutex);<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>+     if (pc_sampling_stop) {<o:p></o:p></pre>
<pre>+             kfd_process_set_trap_pc_sampling_flag(&pdd->qpd,<o:p></o:p></pre>
<pre>+                     pdd->dev-<o:p></o:p></pre>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<pre>pcs_data.hosttrap_entry.base.pc_sample_info.method,<o:p></o:p></pre>
</blockquote>
<pre>+false);<o:p></o:p></pre>
<pre>+<o:p></o:p></pre>
<pre>+             mutex_lock(&pdd->dev->pcs_data.mutex);<o:p></o:p></pre>
<pre>+             pdd->dev->pcs_data.hosttrap_entry.base.target_simd = 0;<o:p></o:p></pre>
<pre>+             pdd->dev->pcs_data.hosttrap_entry.base.target_wave_slot = 0;<o:p></o:p></pre>
<pre>+             WRITE_ONCE(pdd->dev-<o:p></o:p></pre>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<pre>pcs_data.hosttrap_entry.base.stop_enable, false);<o:p></o:p></pre>
</blockquote>
<pre>+             mutex_unlock(&pdd->dev->pcs_data.mutex);<o:p></o:p></pre>
<pre>+     }<o:p></o:p></pre>
<pre>+<o:p></o:p></pre>
<pre>+     return 0;<o:p></o:p></pre>
<pre> }<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre> static int kfd_pc_sample_create(struct kfd_process_device *pdd, @@ -251,7<o:p></o:p></pre>
<pre>+273,7 @@ int kfd_pc_sample(struct kfd_process_device *pdd,<o:p></o:p></pre>
<pre>              if (!pcs_entry->enabled)<o:p></o:p></pre>
<pre>                      return -EALREADY;<o:p></o:p></pre>
<pre>              else<o:p></o:p></pre>
<pre>-                     return kfd_pc_sample_stop(pdd);<o:p></o:p></pre>
<pre>+                     return kfd_pc_sample_stop(pdd, pcs_entry);<o:p></o:p></pre>
<pre>      }<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>      return -EINVAL;<o:p></o:p></pre>
<pre>diff --git a/drivers/gpu/drm/amd/amdkfd/kfd_priv.h<o:p></o:p></pre>
<pre>b/drivers/gpu/drm/amd/amdkfd/kfd_priv.h<o:p></o:p></pre>
<pre>index 613910e0d440..badaa4d68cc4 100644<o:p></o:p></pre>
<pre>--- a/drivers/gpu/drm/amd/amdkfd/kfd_priv.h<o:p></o:p></pre>
<pre>+++ b/drivers/gpu/drm/amd/amdkfd/kfd_priv.h<o:p></o:p></pre>
<pre>@@ -259,6 +259,8 @@ struct kfd_dev;<o:p></o:p></pre>
<pre> struct kfd_dev_pc_sampling_data {<o:p></o:p></pre>
<pre>      uint32_t use_count;         /* Num of PC sampling sessions */<o:p></o:p></pre>
<pre>      uint32_t active_count;      /* Num of active sessions */<o:p></o:p></pre>
<pre>+     uint32_t target_simd;       /* target simd for trap */<o:p></o:p></pre>
<pre>+     uint32_t target_wave_slot;  /* target wave slot for trap */<o:p></o:p></pre>
<pre>      bool stop_enable;           /* pc sampling stop in process */<o:p></o:p></pre>
<pre>      struct idr pc_sampling_idr;<o:p></o:p></pre>
<pre>      struct kfd_pc_sample_info pc_sample_info;<o:p></o:p></pre>
<pre>--<o:p></o:p></pre>
<pre>2.25.1<o:p></o:p></pre>
</blockquote>
<pre><o:p> </o:p></pre>
</blockquote>
</div>
</div>
</div>
</body>
</html>