<div dir="ltr"><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, Jul 24, 2023 at 9:04 PM Danilo Krummrich <<a href="mailto:dakr@redhat.com">dakr@redhat.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><br>
<br>
On 7/22/23 00:58, Faith Ekstrand wrote:<br>
> <br>
> On Wed, Jul 19, 2023 at 7:15 PM Danilo Krummrich <<a href="mailto:dakr@redhat.com" target="_blank">dakr@redhat.com</a> <br>
> <mailto:<a href="mailto:dakr@redhat.com" target="_blank">dakr@redhat.com</a>>> wrote:<br>
> <br>
>     This commit provides the interfaces for the new UAPI motivated by the<br>
>     Vulkan API. It allows user mode drivers (UMDs) to:<br>
> <br>
>     1) Initialize a GPU virtual address (VA) space via the new<br>
>         DRM_IOCTL_NOUVEAU_VM_INIT ioctl. UMDs can provide a kernel reserved<br>
>         VA area.<br>
> <br>
>     2) Bind and unbind GPU VA space mappings via the new<br>
>         DRM_IOCTL_NOUVEAU_VM_BIND ioctl.<br>
> <br>
>     3) Execute push buffers with the new DRM_IOCTL_NOUVEAU_EXEC ioctl.<br>
> <br>
>     Both, DRM_IOCTL_NOUVEAU_VM_BIND and DRM_IOCTL_NOUVEAU_EXEC support<br>
>     asynchronous processing with DRM syncobjs as synchronization mechanism.<br>
> <br>
>     The default DRM_IOCTL_NOUVEAU_VM_BIND is synchronous processing,<br>
>     DRM_IOCTL_NOUVEAU_EXEC supports asynchronous processing only.<br>
> <br>
>     Co-authored-by: Dave Airlie <<a href="mailto:airlied@redhat.com" target="_blank">airlied@redhat.com</a><br>
>     <mailto:<a href="mailto:airlied@redhat.com" target="_blank">airlied@redhat.com</a>>><br>
>     Signed-off-by: Danilo Krummrich <<a href="mailto:dakr@redhat.com" target="_blank">dakr@redhat.com</a><br>
>     <mailto:<a href="mailto:dakr@redhat.com" target="_blank">dakr@redhat.com</a>>><br>
>     ---<br>
>       Documentation/gpu/driver-uapi.rst |   8 ++<br>
>       include/uapi/drm/nouveau_drm.h    | 209 ++++++++++++++++++++++++++++++<br>
>       2 files changed, 217 insertions(+)<br>
> <br>
>     diff --git a/Documentation/gpu/driver-uapi.rst<br>
>     b/Documentation/gpu/driver-uapi.rst<br>
>     index 4411e6919a3d..9c7ca6e33a68 100644<br>
>     --- a/Documentation/gpu/driver-uapi.rst<br>
>     +++ b/Documentation/gpu/driver-uapi.rst<br>
>     @@ -6,3 +6,11 @@ drm/i915 uAPI<br>
>       =============<br>
> <br>
>       .. kernel-doc:: include/uapi/drm/i915_drm.h<br>
>     +<br>
>     +drm/nouveau uAPI<br>
>     +================<br>
>     +<br>
>     +VM_BIND / EXEC uAPI<br>
>     +-------------------<br>
>     +<br>
>     +.. kernel-doc:: include/uapi/drm/nouveau_drm.h<br>
>     diff --git a/include/uapi/drm/nouveau_drm.h<br>
>     b/include/uapi/drm/nouveau_drm.h<br>
>     index 853a327433d3..4d3a70529637 100644<br>
>     --- a/include/uapi/drm/nouveau_drm.h<br>
>     +++ b/include/uapi/drm/nouveau_drm.h<br>
>     @@ -126,6 +126,209 @@ struct drm_nouveau_gem_cpu_fini {<br>
>              __u32 handle;<br>
>       };<br>
> <br>
>     +/**<br>
>     + * struct drm_nouveau_sync - sync object<br>
>     + *<br>
>     + * This structure serves as synchronization mechanism for (potentially)<br>
>     + * asynchronous operations such as EXEC or VM_BIND.<br>
>     + */<br>
>     +struct drm_nouveau_sync {<br>
>     +       /**<br>
>     +        * @flags: the flags for a sync object<br>
>     +        *<br>
>     +        * The first 8 bits are used to determine the type of the<br>
>     sync object.<br>
>     +        */<br>
>     +       __u32 flags;<br>
>     +#define DRM_NOUVEAU_SYNC_SYNCOBJ 0x0<br>
>     +#define DRM_NOUVEAU_SYNC_TIMELINE_SYNCOBJ 0x1<br>
>     +#define DRM_NOUVEAU_SYNC_TYPE_MASK 0xf<br>
>     +       /**<br>
>     +        * @handle: the handle of the sync object<br>
>     +        */<br>
>     +       __u32 handle;<br>
>     +       /**<br>
>     +        * @timeline_value:<br>
>     +        *<br>
>     +        * The timeline point of the sync object in case the syncobj<br>
>     is of<br>
>     +        * type DRM_NOUVEAU_SYNC_TIMELINE_SYNCOBJ.<br>
>     +        */<br>
>     +       __u64 timeline_value;<br>
>     +};<br>
>     +<br>
>     +/**<br>
>     + * struct drm_nouveau_vm_init - GPU VA space init structure<br>
>     + *<br>
>     + * Used to initialize the GPU's VA space for a user client, telling<br>
>     the kernel<br>
>     + * which portion of the VA space is managed by the UMD and kernel<br>
>     respectively.<br>
> <br>
> <br>
> I assume this has to be called quite early. Like maybe before any BOs or <br>
> channels are created? In any case, it'd be nice to have that documented.<br>
<br>
Exactly, doing any of those will disable the new uAPI entirely if it <br>
wasn't yet initialized. I will add some documentation for this.<br></blockquote><div><br></div><div>Thanks!<br></div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
> <br>
>     + */<br>
>     +struct drm_nouveau_vm_init {<br>
>     +       /**<br>
>     +        * @unmanaged_addr: start address of the kernel managed VA<br>
>     space region<br>
>     +        */<br>
>     +       __u64 unmanaged_addr;<br>
>     +       /**<br>
>     +        * @unmanaged_size: size of the kernel managed VA space<br>
>     region in bytes<br>
>     +        */<br>
>     +       __u64 unmanaged_size;<br>
> <br>
> <br>
> Over-all, I think this is the right API. My only concern is with the <br>
> word "unmanaged". None of the VA space is unmanaged. Some is <br>
> userspace-managed and some is kernel-managed.  I guess "unmanaged" kinda <br>
> makes sense because this is coming from userspace and it's saying which <br>
> bits it manages and which bits it doesn't.  Still seems clunky to me.  <br>
> Maybe kernel_managed? IDK, that feels weird too. Since we're already <br>
> using UMD in this file, we could call it kmd_managed. IDK. 🤷🏻‍♀️<br>
<br>
kernel_managed / kmd_managed both sounds fine to me. I'm good with <br>
either one.<br></blockquote><div><br></div><div>Let's go with kernel_managed then, unless anyone objects.<br></div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
> <br>
> Yeah, I know this is a total bikeshed color thing and I'm not going to <br>
> block anything based on it. 😅 Just wanted to see if we can come up with <br>
> anything better.  It's documented and that's the important thing.<br>
> <br>
>     +};<br>
>     +<br>
>     +/**<br>
>     + * struct drm_nouveau_vm_bind_op - VM_BIND operation<br>
>     + *<br>
>     + * This structure represents a single VM_BIND operation. UMDs<br>
>     should pass<br>
>     + * an array of this structure via struct drm_nouveau_vm_bind's<br>
>     &op_ptr field.<br>
>     + */<br>
>     +struct drm_nouveau_vm_bind_op {<br>
>     +       /**<br>
>     +        * @op: the operation type<br>
>     +        */<br>
>     +       __u32 op;<br>
>     +/**<br>
>     + * @DRM_NOUVEAU_VM_BIND_OP_MAP:<br>
>     + *<br>
>     + * Map a GEM object to the GPU's VA space. Optionally, the<br>
>     + * &DRM_NOUVEAU_VM_BIND_SPARSE flag can be passed to instruct the<br>
>     kernel to<br>
>     + * create sparse mappings for the given range.<br>
>     + */<br>
>     +#define DRM_NOUVEAU_VM_BIND_OP_MAP 0x0<br>
>     +/**<br>
>     + * @DRM_NOUVEAU_VM_BIND_OP_UNMAP:<br>
>     + *<br>
>     + * Unmap an existing mapping in the GPU's VA space. If the region<br>
>     the mapping<br>
>     + * is located in is a sparse region, new sparse mappings are<br>
>     created where the<br>
>     + * unmapped (memory backed) mapping was mapped previously. To<br>
>     remove a sparse<br>
>     + * region the &DRM_NOUVEAU_VM_BIND_SPARSE must be set.<br>
>     + */<br>
>     +#define DRM_NOUVEAU_VM_BIND_OP_UNMAP 0x1<br>
>     +       /**<br>
>     +        * @flags: the flags for a &drm_nouveau_vm_bind_op<br>
>     +        */<br>
>     +       __u32 flags;<br>
>     +/**<br>
>     + * @DRM_NOUVEAU_VM_BIND_SPARSE:<br>
>     + *<br>
>     + * Indicates that an allocated VA space region should be sparse.<br>
>     + */<br>
>     +#define DRM_NOUVEAU_VM_BIND_SPARSE (1 << 8)<br>
>     +       /**<br>
>     +        * @handle: the handle of the DRM GEM object to map<br>
>     +        */<br>
>     +       __u32 handle;<br>
>     +       /**<br>
>     +        * @pad: 32 bit padding, should be 0<br>
>     +        */<br>
>     +       __u32 pad;<br>
>     +       /**<br>
>     +        * @addr:<br>
>     +        *<br>
>     +        * the address the VA space region or (memory backed)<br>
>     mapping should be mapped to<br>
>     +        */<br>
>     +       __u64 addr;<br>
>     +       /**<br>
>     +        * @bo_offset: the offset within the BO backing the mapping<br>
>     +        */<br>
>     +       __u64 bo_offset;<br>
>     +       /**<br>
>     +        * @range: the size of the requested mapping in bytes<br>
>     +        */<br>
>     +       __u64 range;<br>
>     +};<br>
>     +<br>
>     +/**<br>
>     + * struct drm_nouveau_vm_bind - structure for DRM_IOCTL_NOUVEAU_VM_BIND<br>
>     + */<br>
>     +struct drm_nouveau_vm_bind {<br>
>     +       /**<br>
>     +        * @op_count: the number of &drm_nouveau_vm_bind_op<br>
>     +        */<br>
>     +       __u32 op_count;<br>
> <br>
> <br>
> I've chatted a bit with Dave on IRC about this but both VM_BIND and EXEC <br>
> should support `op_count == 0` and do exactly the same thing that they <br>
> would do if there were real ops. In the case of vm_bind, that just means <br>
> wait on the waits and then signal the signals. In particular, it should <br>
> NOT just return success and do nothing. Dave has a patch for this for <br>
> EXEC but IDK if VM_BIND needs any attention.  Of course, if it's not <br>
> ASYNC, then quickly doing nothing after validating inputs is acceptable.<br>
<br>
What will this be used for? I guess it would not be important to be <br>
executed in order with "regular" (non-noop) jobs? Because the only thing <br>
this would tell you is that e.g. for VM_BIND all previous binds <br>
completed, which is what we have syncobjs for.<br></blockquote><div><br></div><div>Yes, exactly that. Effectively, it allows you to add more signal objects to the last submitted job after the fact. Vulkan allows submits with zero command buffers and they have to behave the same as submits that actually do work. We also use this internally in Mesa to implement things like `vkQueueWaitForIdle`. (It's actually a little more subtle than that because the new signals will also wait on any waits in the zero-size exec.)<br></div><div><br></div><div>The standard driver work-around for this which Mesa Vulkan drivers carry is to have a no-op pushbuf that you stash somewhere. Whenever command_buffer_count == 0, you submit that one instead to trick the kernel into thinking it's doing work. Since we're building a new UAPI, though, we may as well just support this corner case directly in the kernel driver.</div><div><br></div><div>~Faith<br></div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
- Danilo<br>
<br>
> <br>
>     +       /**<br>
>     +        * @flags: the flags for a &drm_nouveau_vm_bind ioctl<br>
>     +        */<br>
>     +       __u32 flags;<br>
>     +/**<br>
>     + * @DRM_NOUVEAU_VM_BIND_RUN_ASYNC:<br>
>     + *<br>
>     + * Indicates that the given VM_BIND operation should be executed<br>
>     asynchronously<br>
>     + * by the kernel.<br>
>     + *<br>
>     + * If this flag is not supplied the kernel executes the associated<br>
>     operations<br>
>     + * synchronously and doesn't accept any &drm_nouveau_sync objects.<br>
>     + */<br>
>     +#define DRM_NOUVEAU_VM_BIND_RUN_ASYNC 0x1<br>
>     +       /**<br>
>     +        * @wait_count: the number of wait &drm_nouveau_syncs<br>
>     +        */<br>
>     +       __u32 wait_count;<br>
>     +       /**<br>
>     +        * @sig_count: the number of &drm_nouveau_syncs to signal<br>
>     when finished<br>
>     +        */<br>
>     +       __u32 sig_count;<br>
>     +       /**<br>
>     +        * @wait_ptr: pointer to &drm_nouveau_syncs to wait for<br>
>     +        */<br>
>     +       __u64 wait_ptr;<br>
>     +       /**<br>
>     +        * @sig_ptr: pointer to &drm_nouveau_syncs to signal when<br>
>     finished<br>
>     +        */<br>
>     +       __u64 sig_ptr;<br>
>     +       /**<br>
>     +        * @op_ptr: pointer to the &drm_nouveau_vm_bind_ops to execute<br>
>     +        */<br>
>     +       __u64 op_ptr;<br>
>     +};<br>
>     +<br>
>     +/**<br>
>     + * struct drm_nouveau_exec_push - EXEC push operation<br>
>     + *<br>
>     + * This structure represents a single EXEC push operation. UMDs<br>
>     should pass an<br>
>     + * array of this structure via struct drm_nouveau_exec's &push_ptr<br>
>     field.<br>
>     + */<br>
>     +struct drm_nouveau_exec_push {<br>
>     +       /**<br>
>     +        * @va: the virtual address of the push buffer mapping<br>
>     +        */<br>
>     +       __u64 va;<br>
>     +       /**<br>
>     +        * @va_len: the length of the push buffer mapping<br>
>     +        */<br>
>     +       __u64 va_len;<br>
>     +};<br>
>     +<br>
>     +/**<br>
>     + * struct drm_nouveau_exec - structure for DRM_IOCTL_NOUVEAU_EXEC<br>
>     + */<br>
>     +struct drm_nouveau_exec {<br>
>     +       /**<br>
>     +        * @channel: the channel to execute the push buffer in<br>
>     +        */<br>
>     +       __u32 channel;<br>
>     +       /**<br>
>     +        * @push_count: the number of &drm_nouveau_exec_push ops<br>
>     +        */<br>
>     +       __u32 push_count;<br>
> <br>
> <br>
> Same comment as above. We want `push_count == 0` to behave the same as <br>
> any other EXEC just without anything new. In particular, it needs to <br>
> wait on all the waits as well as the previous EXECs on that channel and <br>
> then signal the sigs. I know Dave has a patch for this and it's working <br>
> quite well in my testing.<br>
> <br>
> Other than that, everything looks good.  I'm still re-reading all the <br>
> NVK patches but they've been working quite well in my testing this week <br>
> apart from a perf issue I need to dig into. I'll give a real RB once <br>
> we're sure we all agree on the semantics of _count.<br>
> <br>
> ~Faith<br>
> <br>
>     +       /**<br>
>     +        * @wait_count: the number of wait &drm_nouveau_syncs<br>
>     +        */<br>
>     +       __u32 wait_count;<br>
>     +       /**<br>
>     +        * @sig_count: the number of &drm_nouveau_syncs to signal<br>
>     when finished<br>
>     +        */<br>
>     +       __u32 sig_count;<br>
>     +       /**<br>
>     +        * @wait_ptr: pointer to &drm_nouveau_syncs to wait for<br>
>     +        */<br>
>     +       __u64 wait_ptr;<br>
>     +       /**<br>
>     +        * @sig_ptr: pointer to &drm_nouveau_syncs to signal when<br>
>     finished<br>
>     +        */<br>
>     +       __u64 sig_ptr;<br>
>     +       /**<br>
>     +        * @push_ptr: pointer to &drm_nouveau_exec_push ops<br>
>     +        */<br>
>     +       __u64 push_ptr;<br>
>     +};<br>
>     +<br>
>       #define DRM_NOUVEAU_GETPARAM           0x00 /* deprecated */<br>
>       #define DRM_NOUVEAU_SETPARAM           0x01 /* deprecated */<br>
>       #define DRM_NOUVEAU_CHANNEL_ALLOC      0x02 /* deprecated */<br>
>     @@ -136,6 +339,9 @@ struct drm_nouveau_gem_cpu_fini {<br>
>       #define DRM_NOUVEAU_NVIF               0x07<br>
>       #define DRM_NOUVEAU_SVM_INIT           0x08<br>
>       #define DRM_NOUVEAU_SVM_BIND           0x09<br>
>     +#define DRM_NOUVEAU_VM_INIT            0x10<br>
>     +#define DRM_NOUVEAU_VM_BIND            0x11<br>
>     +#define DRM_NOUVEAU_EXEC               0x12<br>
>       #define DRM_NOUVEAU_GEM_NEW            0x40<br>
>       #define DRM_NOUVEAU_GEM_PUSHBUF        0x41<br>
>       #define DRM_NOUVEAU_GEM_CPU_PREP       0x42<br>
>     @@ -197,6 +403,9 @@ struct drm_nouveau_svm_bind {<br>
>       #define DRM_IOCTL_NOUVEAU_GEM_CPU_FINI       DRM_IOW<br>
>     (DRM_COMMAND_BASE + DRM_NOUVEAU_GEM_CPU_FINI, struct<br>
>     drm_nouveau_gem_cpu_fini)<br>
>       #define DRM_IOCTL_NOUVEAU_GEM_INFO         <br>
>       DRM_IOWR(DRM_COMMAND_BASE + DRM_NOUVEAU_GEM_INFO, struct<br>
>     drm_nouveau_gem_info)<br>
> <br>
>     +#define DRM_IOCTL_NOUVEAU_VM_INIT           <br>
>     DRM_IOWR(DRM_COMMAND_BASE + DRM_NOUVEAU_VM_INIT, struct<br>
>     drm_nouveau_vm_init)<br>
>     +#define DRM_IOCTL_NOUVEAU_VM_BIND           <br>
>     DRM_IOWR(DRM_COMMAND_BASE + DRM_NOUVEAU_VM_BIND, struct<br>
>     drm_nouveau_vm_bind)<br>
>     +#define DRM_IOCTL_NOUVEAU_EXEC             <br>
>       DRM_IOWR(DRM_COMMAND_BASE + DRM_NOUVEAU_EXEC, struct drm_nouveau_exec)<br>
>       #if defined(__cplusplus)<br>
>       }<br>
>       #endif<br>
>     -- <br>
>     2.41.0<br>
> <br>
<br>
</blockquote></div></div>