[PATCH] drm/amdgpu: add ring reset messages

Tue Oct 29 03:44:33 UTC 2024

On 10/28/2024 10:21 PM, Alex Deucher wrote:
> Add messages to make it clear when a per ring reset
> happens.  This is helpful for debugging and aligns with
> other reset methods.
> 
> v2: add ring name in success/fail messages (Lijo)
> 
> Reviewed-by: Kent Russell <kent.russell at amd.com> (v1)
> Signed-off-by: Alex Deucher <alexander.deucher at amd.com>

Probably, will need a followup to keep reset messages at consistent
level. For device reset/recovery, it's at info level now.

Reviewed-by: Lijo Lazar <lijo.lazar at amd.com>

Thanks,
Lijo

> ---
>  drivers/gpu/drm/amd/amdgpu/amdgpu_job.c | 3 +++
>  1 file changed, 3 insertions(+)
> 
> diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_job.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_job.c
> index 717adcedf096..9b322569255e 100644
> --- a/drivers/gpu/drm/amd/amdgpu/amdgpu_job.c
> +++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_job.c
> @@ -137,6 +137,7 @@ static enum drm_gpu_sched_stat amdgpu_job_timedout(struct drm_sched_job *s_job)
>  	/* attempt a per ring reset */
>  	if (amdgpu_gpu_recovery &&
>  	    ring->funcs->reset) {
> +		dev_err(adev->dev, "Starting %s ring reset\n", s_job->sched->name);
>  		/* stop the scheduler, but don't mess with the
>  		 * bad job yet because if ring reset fails
>  		 * we'll fall back to full GPU reset.
> @@ -150,8 +151,10 @@ static enum drm_gpu_sched_stat amdgpu_job_timedout(struct drm_sched_job *s_job)
>  			amdgpu_fence_driver_force_completion(ring);
>  			if (amdgpu_ring_sched_ready(ring))
>  				drm_sched_start(&ring->sched, true);
> +			dev_err(adev->dev, "Ring %s reset success\n", ring->sched.name);
>  			goto exit;
>  		}
> +		dev_err(adev->dev, "Ring %s reset failure\n", ring->sched.name);
>  	}
>  
>  	if (amdgpu_device_should_recover_gpu(ring->adev)) {