<div dir="ltr"><div class="gmail_quote"><div dir="ltr">On Wed, Nov 21, 2018 at 1:35 PM Ian Romanick <<a href="mailto:idr@freedesktop.org">idr@freedesktop.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">On 11/21/2018 11:01 AM, Jason Ekstrand wrote:<br>
> On Tue, Nov 20, 2018 at 6:40 PM Ian Romanick <<a href="mailto:idr@freedesktop.org" target="_blank">idr@freedesktop.org</a><br>
> <mailto:<a href="mailto:idr@freedesktop.org" target="_blank">idr@freedesktop.org</a>>> wrote:<br>
> <br>
>     From: Ian Romanick <<a href="mailto:ian.d.romanick@intel.com" target="_blank">ian.d.romanick@intel.com</a><br>
>     <mailto:<a href="mailto:ian.d.romanick@intel.com" target="_blank">ian.d.romanick@intel.com</a>>><br>
> <br>
>     Changes in peak memory usage according to Valgrind massif:<br>
> <br>
>     mean soft fp64 using uint64:   5,499,881,802 => 1,343,998,123<br>
>     gfxbench5 aztec ruins high 11:    62,415,414 =>    62,415,414<br>
>     deus ex mankind divided 148:      62,317,965 =>    62,317,965<br>
>     deus ex mankind divided 2890:     72,585,466 =>    72,585,466<br>
>     dirt showdown 676:                74,473,151 =>    75,203,703<br>
>     dolphin ubershaders 210:         109,637,096 =>    83,185,248<br>
> <br>
>     Signed-off-by: Ian Romanick <<a href="mailto:ian.d.romanick@intel.com" target="_blank">ian.d.romanick@intel.com</a><br>
>     <mailto:<a href="mailto:ian.d.romanick@intel.com" target="_blank">ian.d.romanick@intel.com</a>>><br>
>     ---<br>
>      src/compiler/nir/nir_phi_builder.c | 115<br>
>     ++++++++++++++++++++++++++++++-------<br>
>      1 file changed, 93 insertions(+), 22 deletions(-)<br>
> <br>
>     diff --git a/src/compiler/nir/nir_phi_builder.c<br>
>     b/src/compiler/nir/nir_phi_builder.c<br>
>     index add3efd2dfc..36ab9888f48 100644<br>
>     --- a/src/compiler/nir/nir_phi_builder.c<br>
>     +++ b/src/compiler/nir/nir_phi_builder.c<br>
>     @@ -41,6 +41,25 @@ struct nir_phi_builder {<br>
>         unsigned iter_count;<br>
>         unsigned *work;<br>
>         nir_block **W;<br>
>     +<br>
>     +   /**<br>
>     +    * Tables of SSA defs, indexed by block and nir_phi_builder_value.<br>
>     +    *<br>
>     +    * For each [value, block] tuple, this table has one of three<br>
>     types of<br>
>     +    * values:<br>
>     +    *<br>
>     +    *  - NULL (i.e., not in the table). Indicates that there is no<br>
>     known<br>
>     +    *    definition in this block.  If you need to find one, look<br>
>     at the<br>
>     +    *    block's immediate dominator.<br>
>     +    *<br>
>     +    *  - NEEDS_PHI. Indicates that the block may need a phi node<br>
>     but none has<br>
>     +    *    been created yet.  If a def is requested for a block, a<br>
>     phi will need<br>
>     +    *    to be created.<br>
>     +    *<br>
>     +    *  - A regular SSA def.  This will be either the result of a<br>
>     phi node or<br>
>     +    *    one of the defs provided by<br>
>     nir_phi_builder_value_set_blocK_def().<br>
>     +    */<br>
>     +   struct hash_table *value_block_def_hash;<br>
>      };<br>
> <br>
>      #define NEEDS_PHI ((nir_ssa_def *)(intptr_t)-1)<br>
>     @@ -61,23 +80,34 @@ struct nir_phi_builder_value {<br>
>          * blocks.<br>
>          */<br>
>         struct exec_list phis;<br>
>     +};<br>
> <br>
>     -   /* Array of SSA defs, indexed by block.  For each block, this<br>
>     array has has<br>
>     -    * one of three types of values:<br>
>     -    *<br>
>     -    *  - NULL. Indicates that there is no known definition in this<br>
>     block.  If<br>
>     -    *    you need to find one, look at the block's immediate dominator.<br>
>     -    *<br>
>     -    *  - NEEDS_PHI. Indicates that the block may need a phi node<br>
>     but none has<br>
>     -    *    been created yet.  If a def is requested for a block, a<br>
>     phi will need<br>
>     -    *    to be created.<br>
>     -    *<br>
>     -    *  - A regular SSA def.  This will be either the result of a<br>
>     phi node or<br>
>     -    *    one of the defs provided by<br>
>     nir_phi_builder_value_set_blocK_def().<br>
>     -    */<br>
>     -   nir_ssa_def *defs[0];<br>
>     +/**<br>
>     + * Key for the nir_phi_builder::value_block_def_hash.<br>
>     + */<br>
>     +struct phi_builder_key {<br>
>     +   struct nir_phi_builder_value *val;<br>
>     +   unsigned block_index;<br>
>      };<br>
> <br>
>     +static uint32_t<br>
>     +phi_builder_key_hash(const void *_k)<br>
>     +{<br>
>     +   const struct phi_builder_key *k = (const struct phi_builder_key<br>
>     *)_k;<br>
>     +<br>
>     +   return _mesa_fnv32_1a_accumulate(_mesa_fnv32_1a_accumulate(0,<br>
>     k->val),<br>
>     +                                    k->block_index);<br>
>     +}<br>
>     +<br>
>     +static bool<br>
>     +phi_builder_key_equals(const void *_a, const void *_b)<br>
>     +{<br>
>     +   const struct phi_builder_key *a = (const struct phi_builder_key<br>
>     *)_a;<br>
>     +   const struct phi_builder_key *b = (const struct phi_builder_key<br>
>     *)_b;<br>
>     +<br>
>     +   return a->val == b->val && a->block_index == b->block_index;<br>
>     +}<br>
> <br>
> <br>
> Would it be better to have a hash table per value?  A whole hash table<br>
> sounds like a lot of overhead but it may be less than a tiny allocation<br>
> (plus a ralloc header!) for every (block, value) pair.  I guess it<br>
> depends on the number of defs we expect to be registered per-value.<br>
> <br>
> Running some on-the-fly numbers... A ralloc header is 6 pointers so a<br>
> ralloc'd phi_builder_key is 8 pointers worth of data and a ralloc'd<br>
> hash_table struct is 15 pointers worth.  Throwing in the actual hash<br>
> table with 7 entries and you have a header and two pointers per entry so<br>
> that's another 20 pointers for a total of 35.  That's the same as four<br>
> phi_builder_keys (without including malloc's own overhead).  So if you<br>
> have at least four blocks involved (there have to be at least 3 or there<br>
> is no phi), it's break-even and if there are more involved, one table<br>
> per value is a win.<br>
<br>
I also considered implementing a different data structure entirely.  I<br>
discounted that because I thought I could get a pretty large bang for a<br>
very small buck.  I suspect that a radix tree or similar would have even<br>
less space overhead.  Even with the inefficiencies in this patch, this<br>
part is no longer the peak memory usage for the pessimal test.  Reducing<br>
the overhead in patch 4 does not change the peak usage for that test. :)<br>
<br>
I thought of table-per-entry initially, but I discounted it.  That was<br>
before I realized that I needed an extra allocation for the key.<br></blockquote><div><br></div><div>My original thinking for table-per-entry was to make things simpler as much as anything.<br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Starting with patch 4, the ralloc overhead for keys is gone, so that<br>
effects the calculus a bit.  There is still overhead, but for large<br>
numbers of keys it asymptotically approaches 16 bytes per 1023 keys on<br>
64-bit.</blockquote><div><br></div><div>Right.  I hadn't gotten to reading patch 4 in enough detail to really get what it's doing.  After this discussion, it makes much more sense.  I agree that with a slab allocation strategy, the memory overhead calculus probably weighs back in favor of the single table approach.<br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">My gut tells me that the case of one explicit write (ignoring<br>
the undef) is common since we generate a lot of compiler temporaries.<br></blockquote><div><br></div><div>Same here.  That case shouldn't matter with the one big table approach but with smaller tables, we may want to optimize for it at which point you've lost the simplicity advantage.<br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
It shouldn't be too much effort to try table-per-value and collect<br>
actual data.<br>
<br>
I also considered adding a _mesa_hash_table_init function (we already<br>
have _mesa_hash_table_clear) so that a hash table can be embedded in<br>
another structure to avoid the ralloc (time and space) overhead.  If we<br>
go the table-per-value route, I would definitely want to do that.<br></blockquote><div><br></div><div>I've thought about adding that on multiple occasions as well.  I never have because the ralloc overhead of the hash_table struct usually gets lost in the size of the table.  Maybe for really small tables it makes sense; I'm not sure.<br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
> We could also consider doing some optimizations for the case where the<br>
> value is defined in only one block but that gets tricky as everything<br>
> has an implicit undef at the top so that's probably best left for<br>
> another time unless it's a super-common case in the fp64 code.<br>
>  <br>
> <br>
>     +<br>
>      struct nir_phi_builder *<br>
>      nir_phi_builder_create(nir_function_impl *impl)<br>
>      {<br>
>     @@ -100,6 +130,9 @@ nir_phi_builder_create(nir_function_impl *impl)<br>
>         pb->iter_count = 0;<br>
>         pb->work = rzalloc_array(pb, unsigned, pb->num_blocks);<br>
>         pb->W = ralloc_array(pb, nir_block *, pb->num_blocks);<br>
>     +   pb->value_block_def_hash = _mesa_hash_table_create(pb,<br>
>     +                                                     <br>
>     phi_builder_key_hash,<br>
>     +                                                     <br>
>     phi_builder_key_equals);<br>
> <br>
>         return pb;<br>
>      }<br>
>     @@ -111,7 +144,7 @@ nir_phi_builder_add_value(struct nir_phi_builder<br>
>     *pb, unsigned num_components,<br>
>         struct nir_phi_builder_value *val;<br>
>         unsigned i, w_start = 0, w_end = 0;<br>
> <br>
>     -   val = rzalloc_size(pb, sizeof(*val) + sizeof(val->defs[0]) *<br>
>     pb->num_blocks);<br>
>     +   val = rzalloc_size(pb, sizeof(*val));<br>
>         val->builder = pb;<br>
>         val->num_components = num_components;<br>
>         val->bit_size = bit_size;<br>
>     @@ -142,7 +175,9 @@ nir_phi_builder_add_value(struct nir_phi_builder<br>
>     *pb, unsigned num_components,<br>
>               if (next == pb->impl->end_block)<br>
>                  continue;<br>
> <br>
>     -         if (val->defs[next->index] == NULL) {<br>
>     +         const struct phi_builder_key k = { val, next->index };<br>
>     +<br>
>     +         if (_mesa_hash_table_search(pb->value_block_def_hash, &k)<br>
>     == NULL) {<br>
>                  /* Instead of creating a phi node immediately, we<br>
>     simply set the<br>
>                   * value to the magic value NEEDS_PHI.  Later, we<br>
>     create phi nodes<br>
>                   * on demand in nir_phi_builder_value_get_block_def().<br>
>     @@ -164,7 +199,24 @@ void<br>
>      nir_phi_builder_value_set_block_def(struct nir_phi_builder_value *val,<br>
>                                          nir_block *block, nir_ssa_def *def)<br>
>      {<br>
>     -   val->defs[block->index] = def;<br>
>     +   struct hash_table *ht = val->builder->value_block_def_hash;<br>
>     +   const struct phi_builder_key k = { val, block->index };<br>
>     +   const uint32_t h = ht->key_hash_function(&k);<br>
>     +<br>
>     +   /* This doesn't just use _mesa_hash_table_insert because we only<br>
>     want to<br>
>     +    * allocate memory for the key if we know that the value needs<br>
>     to be added<br>
>     +    * to the hash table.<br>
>     +    */<br>
>     +   struct hash_entry *const he =<br>
>     _mesa_hash_table_search_pre_hashed(ht, h, &k);<br>
>     +   if (he != NULL) {<br>
>     +      he->data = def;<br>
>     +   } else {<br>
>     +      struct phi_builder_key *kp = ralloc(val->builder, struct<br>
>     phi_builder_key);<br>
>     +<br>
>     +      kp->val = k.val;<br>
>     +      kp->block_index = k.block_index;<br>
>     +      _mesa_hash_table_insert_pre_hashed(ht, h, kp, def);<br>
>     +   }<br>
>      }<br>
> <br>
>      nir_ssa_def *<br>
>     @@ -175,8 +227,20 @@ nir_phi_builder_value_get_block_def(struct<br>
>     nir_phi_builder_value *val,<br>
>          * have a valid ssa_def, if any.<br>
>          */<br>
>         nir_block *dom = block;<br>
>     -   while (dom && val->defs[dom->index] == NULL)<br>
>     +   struct hash_entry *he = NULL;<br>
>     +<br>
>     +   while (dom != NULL) {<br>
>     +      const struct phi_builder_key k = { val, dom->index };<br>
>     +<br>
>     +      he =<br>
>     _mesa_hash_table_search(val->builder->value_block_def_hash, &k);<br>
>     +      if (he != NULL)<br>
>     +         break;<br>
>     +<br>
>            dom = dom->imm_dom;<br>
>     +   }<br>
>     +<br>
>     +   /* Exactly one of (he != NULL) and (dom == NULL) must be true. */<br>
>     +   assert((he != NULL) != (dom == NULL));<br>
> <br>
>         nir_ssa_def *def;<br>
>         if (dom == NULL) {<br>
>     @@ -191,7 +255,7 @@ nir_phi_builder_value_get_block_def(struct<br>
>     nir_phi_builder_value *val,<br>
>            nir_instr_insert(nir_before_cf_list(&val->builder->impl->body),<br>
>                             &undef->instr);<br>
>            def = &undef->def;<br>
>     -   } else if (val->defs[dom->index] == NEEDS_PHI) {<br>
>     +   } else if (he->data == NEEDS_PHI) {<br>
>            /* The magic value NEEDS_PHI indicates that the block needs a<br>
>     phi node<br>
>             * but none has been created.  We need to create one now so<br>
>     we can<br>
>             * return it to the caller.<br>
>     @@ -215,13 +279,14 @@ nir_phi_builder_value_get_block_def(struct<br>
>     nir_phi_builder_value *val,<br>
>                              val->bit_size, NULL);<br>
>            phi->instr.block = dom;<br>
>            exec_list_push_tail(&val->phis, &phi->instr.node);<br>
>     -      def = val->defs[dom->index] = &phi->dest.ssa;<br>
>     +      def = &phi->dest.ssa;<br>
>     +      he->data = def;<br>
>         } else {<br>
>            /* In this case, we have an actual SSA def.  It's either the<br>
>     result of a<br>
>             * phi node created by the case above or one passed to us through<br>
>             * nir_phi_builder_value_set_block_def().<br>
>             */<br>
>     -      def = val->defs[dom->index];<br>
>     +      def = (struct nir_ssa_def *) he->data;<br>
>         }<br>
> <br>
>         /* Walk the chain and stash the def in all of the applicable<br>
>     blocks.  We do<br>
>     @@ -231,8 +296,14 @@ nir_phi_builder_value_get_block_def(struct<br>
>     nir_phi_builder_value *val,<br>
>          *     block that is not dominated by this one.<br>
>          *  2) To avoid unneeded recreation of phi nodes and undefs.<br>
>          */<br>
>     -   for (dom = block; dom && val->defs[dom->index] == NULL; dom =<br>
>     dom->imm_dom)<br>
>     +   for (dom = block; dom != NULL; dom = dom->imm_dom) {<br>
>     +      const struct phi_builder_key k = { val, dom->index };<br>
>     +<br>
>     +      if<br>
>     (_mesa_hash_table_search(val->builder->value_block_def_hash, &k) !=<br>
>     NULL)<br>
>     +         break;<br>
>     +<br>
>            nir_phi_builder_value_set_block_def(val, dom, def);<br>
>     +   }<br>
> <br>
>         return def;<br>
>      }<br>
>     -- <br>
>     2.14.4<br>
> <br>
>     _______________________________________________<br>
>     mesa-dev mailing list<br>
>     <a href="mailto:mesa-dev@lists.freedesktop.org" target="_blank">mesa-dev@lists.freedesktop.org</a> <mailto:<a href="mailto:mesa-dev@lists.freedesktop.org" target="_blank">mesa-dev@lists.freedesktop.org</a>><br>
>     <a href="https://lists.freedesktop.org/mailman/listinfo/mesa-dev" rel="noreferrer" target="_blank">https://lists.freedesktop.org/mailman/listinfo/mesa-dev</a><br>
</blockquote></div></div>