<div dir="ltr"><div dir="ltr">Michael,<div><br></div><div>We'd love to meet and discuss!  Unfortunately, a lot of us are off for break starting next week so it might be best to sync up early next year.  </div><div>Would week of the 6th work for you? 8am PT/10am CT/4pm GMT any day should work!</div><div><br></div></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
> We started by having the relational database be a simple persistent<br>
> storage layer, when coupled with an index to retrieve data by position,<br>
> can allow us to scroll through large datasets of billions of rows at<br>
> ease. We developed a new positional index to handle insertions and<br>
> deletions in O(log(n)) -- <a href="https://arxiv.org/pdf/1708.06712.pdf" rel="noreferrer" target="_blank">https://arxiv.org/pdf/1708.06712.pdf</a>. I agree<br>
> that pushing the computation to the relational database does have<br>
> overheads; but at the same time, it allows for scaling to arbitrarily<br>
> large datasets. <br>
<br>
        Ooh - nice paper. Your crawled data-set looks quite interesting too, we<br>
run wide-scale crash-testing on the LibreOffice code-base across ~100k<br>
files and enlarging our corpus there: or better, getting some<br>
statistical view of which OOXML attributes (and thus features) are most<br>
used out there would be extremely useful to us as we develop the core.<br>
<br>
        I like the data on spreadsheet and formula shape - that is very useful.<br>
Do you have data on the geometry of formulae - as in rows vs. columns ?<br>
[ we switched to columnar storage based mostly on experience rather than<br>
hard data ;-].<br>
<br>
        It is also interesting to have access to very large (1.3m row)<br>
data-sets that can have useful analysis done on them - would love to see<br>
the source data there.<br></blockquote><div><br></div><div>Again, this is something that we'd be happy to share; this might just take a bit more work since it's an older codebase. </div><div>I believe we did use the geometry of the formulae to determine the best storage representation, so it's there somewhere :-) </div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">        Sounds good, cf. above - if we can't make that - early in the new year<br>
would be great.<br>
<br>
        I look forward to talking,<br></blockquote><div><br></div><div>Likewise!</div><div><br></div><div>Aditya</div></div></div>