<p>Sorry. You're right of course. I had forgotten that junk sequences were also included in the input. BTW I would like to see some of these badly rendered sequences if possible.</p>
<p>Sent from my Android phone</p>
<div class="gmail_quote">On May 28, 2012 11:52 PM, "Behdad Esfahbod" <<a href="mailto:behdad@behdad.org">behdad@behdad.org</a>> wrote:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
On 05/28/2012 02:13 PM, Shriramana Sharma wrote:<br>
> On Mon, May 28, 2012 at 10:45 PM, Behdad Esfahbod <<a href="mailto:behdad@behdad.org">behdad@behdad.org</a>> wrote:<br>
>><br>
>> I ran these through.  Tamil is at 0.87%, which is really nice.  There's 806<br>
>> failures.<br>
><br>
> Frankly for Tamil 806 failures is high. Tamil is perhaps the simplest<br>
> major Indic script.<br>
<br>
I find that statement hard to believe.  I didn't tell you out of how many<br>
cases!  806 out of a million words is not very high to me.  See my original<br>
report.  Many of the failure cases are peculiar sequences that we disagree<br>
with Uniscribe on.  Anyway, I'll look into it more closely.  I think I should<br>
go ahead and make frequency-adjusted first.<br>
<br>
behdad<br>
</blockquote></div>