<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On Tue, Nov 1, 2016 at 1:07 AM, Chris Wilson <span dir="ltr"><<a href="mailto:chris@chris-wilson.co.uk" target="_blank">chris@chris-wilson.co.uk</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">On Mon, Oct 31, 2016 at 09:48:15PM -0700, Jason Ekstrand wrote:<br>
> From: Kristian Høgsberg Kristensen <<a href="mailto:kristian.h.kristensen@intel.com">kristian.h.kristensen@intel.<wbr>com</a>><br>
><br>
> This reduces the amount of stalling that the kernel does between batches<br>
> and improves the performance of Dota 2 on a Sky Lake GT2 desktop by around<br>
> 30%.  Ideally, we would have a simple execbuf2 flag that would let us tell<br>
> the kernel "Trust me, you don't need to stall to relocate" but the kernel<br>
> has no such flag at the moment.<br>
<br>
</span>The NO_RELOC approach should work out to be faster since you then avoid<br>
all the relocation handling in the kernel. You already have the buffers<br>
coherently mapped, the kernel doesn't, the kernel needs to copy the<br>
entire relocation tree if even one relocation is wrong, etc.<br>
<span class=""><br>
> Signed-off-by: Jason Ekstrand <<a href="mailto:jason@jlekstrand.net">jason@jlekstrand.net</a>><br>
> Cc: Kristian Høgsberg <<a href="mailto:krh@bitplanet.net">krh@bitplanet.net</a>><br>
> Cc: Ben Widawsky <<a href="mailto:ben@bwidawsk.net">ben@bwidawsk.net</a>><br>
> Cc: Daniel Vetter <<a href="mailto:daniel.vetter@ffwll.ch">daniel.vetter@ffwll.ch</a>><br>
> Cc: Chris Wilson <<a href="mailto:chris@chris-wilson.co.uk">chris@chris-wilson.co.uk</a>><br>
><br>
> ---<br>
>  src/intel/vulkan/anv_device.c | 96 ++++++++++++++++++++++++++++++<wbr>+++++++++++--<br>
>  1 file changed, 93 insertions(+), 3 deletions(-)<br>
><br>
> diff --git a/src/intel/vulkan/anv_device.<wbr>c b/src/intel/vulkan/anv_device.<wbr>c<br>
> index baa767e..ef371a7 100644<br>
> --- a/src/intel/vulkan/anv_device.<wbr>c<br>
> +++ b/src/intel/vulkan/anv_device.<wbr>c<br>
> @@ -1068,6 +1068,89 @@ void anv_GetDeviceQueue(<br>
>     *pQueue = anv_queue_to_handle(&device-><wbr>queue);<br>
>  }<br>
><br>
> +static void<br>
> +write_reloc(const struct anv_device *device, void *p, uint64_t v)<br>
> +{<br>
> +   if (device->info.gen >= 8)<br>
> +      *(uint64_t *)p = v;<br>
<br>
</span>Something to remember here is that some MI (I think) instructions<br>
require canonical format. (bits 63:48 = bit 47).<br></blockquote><div><br></div><div>Is there anything you can point me to on this?  Looking at the i915 sources, it appears that it just writes in the relocation verbatim.<br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5">
> +   else<br>
> +      *(uint32_t *)p = v;<br>
> +}<br>
> +<br>
> +static void<br>
> +anv_reloc_list_apply(struct anv_reloc_list *list,<br>
> +                     struct anv_device *device, struct anv_bo *bo)<br>
> +{<br>
> +   for (size_t i = 0; i < list->num_relocs; i++) {<br>
> +      void *p = bo->map + list->relocs[i].offset;<br>
> +<br>
> +      struct anv_bo *target_bo = list->reloc_bos[i];<br>
> +      write_reloc(device, p, target_bo->offset + list->relocs[i].delta);<br>
> +      list->relocs[i].presumed_<wbr>offset = bo->offset;<br>
> +   }<br>
> +}<br>
> +<br>
> +/**<br>
> + * This function applies the relocation for a command buffer and writes the<br>
> + * actual addresses into the buffers as per what we were told by the kernel on<br>
> + * the previous execbuf2 call.  This should be safe to do because, for each<br>
> + * relocated address, we have two cases:<br>
> + *<br>
> + *  1) The buffer to which the address points is not in use by the GPU.  In<br>
> + *     this case, neither is the 32 or 64-bit chunk of GPU memory storing the<br>
> + *     address so it's completely safe to update the address.<br>
<br>
</div></div>A caveat here is that if the kernel believes the buffer is not in use,<br>
assume the kernel moved it. Hence you always need to tell the kernel<br>
about the buffers for the batch and your assumed locations. This is very<br>
important to remember when dealing with workloads that cause GTT<br>
thrashing or swap thrashing. (In the past you would have also caused<br>
corruption here if you forgot to set the write markers.)<span class=""><br></span></blockquote><div><br></div><div>Yes, I believe I am doing this properly.  Above, after doing the userspace reloc, I set the presumed offset based on the reloc that was just applied.  If the kernel shuffles things around due to GTT thrashing, it has the information it needs to do the relocations correctly in that case.<br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">
> + *<br>
> + *  2) The buffer to which the address points is currently in use by the GPU.<br>
> + *     If it's still in use, then some execbuf2 call before this one used it<br>
> + *     and it has been in use ever since.  In this case, it can't have moved<br>
> + *     since the last execbuffer2 call.  We then have two subcases:<br>
> + *<br>
> + *      a) The 32 or 64-bit chunk of GPU memory storing the address is not in<br>
> + *         use by the GPU.  In this case, it is safe to write the relocation.<br>
> + *<br>
> + *      a) The 32 or 64-bit chunk of GPU memory storing the address is<br>
> + *         currently in use by the GPU.  In this case the the relocated<br>
> + *         address we will write is exactly the same as the last address we<br>
> + *         wrote there.<br>
<br>
</span>(But I don't see you checking on the kernel to confirm, e.g.<br>
<a href="https://cgit.freedesktop.org/~ickle/mesa/tree/src/mesa/drivers/dri/i965/brw_batch.c?h=brw-batch#n814" rel="noreferrer" target="_blank">https://cgit.freedesktop.org/~<wbr>ickle/mesa/tree/src/mesa/<wbr>drivers/dri/i965/brw_batch.c?<wbr>h=brw-batch#n814</a><br>
)<br></blockquote><div><br></div><div>The point here is that the BO containing the image data is in one of two states (as seen by the kernel): active or inactive.  If it's active then so is the surface state buffer so nothing is moving around and any address that I write into the surface state buffer will be exactly what is already there.  If it's inactive then I know the GPU isn't using it so changing that value won't cause the GPU any problems.  If the kernel comes by and has to change it again due to GTT thrashing, that's just fine but the point is that changing it now is ok.<br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<span class="">> + *<br>
> + * By doing relocations on the CPU, we can tell the kernel that it doesn't<br>
> + * need to bother.  We want to do this because the surface state buffer is<br>
> + * used by every command buffer so, if the kernel does the relocations, it<br>
> + * will always be busy and the kernel will always stall.<br>
<br>
</span>Userspace relocation + NO_RELOC processing should also work out to be<br>
fastest of the available approaches today. If you want to try an ignore<br>
stalls flag, it shouldn't take too long to write (I'll get that done<br>
today) and then you can compare the overhead of the kernel having to copy<br>
the relocations from userspace. (You also want the fast execbuf relocation<br>
processing patches from a few years ago...)<br></blockquote><div><br></div><div>Good point!  I'll add that to the comment.<br></div></div><br></div></div>