<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On Thu, Mar 20, 2014 at 6:04 AM, Behdad Esfahbod <span dir="ltr"><<a href="mailto:behdad@behdad.org" target="_blank">behdad@behdad.org</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div class=""><br></div>
Also, Unicode says GC=Cc should just render as boxed if not supported.</blockquote><div><br></div><div>However, it also says that  characters with the White_Space property true it should be rendered as space.  In addition to 0x9, 0xA and 0xD (which both CSS and HTML treat as white space), these are 0xB (VT), 0xC (FF), and 0x85 (NEL).</div>

<div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">The<br>
reason we want them removed here is really an artifact of the HTML spec.</blockquote><div><br></div><div>The requirement of ignoring all GC=Cc characters seems to be an artifact of the CSS3 Text WD (<a href="http://www.w3.org/TR/css-text-3/#white-space-processing">http://www.w3.org/TR/css-text-3/#white-space-processing</a>), which is not yet set in stone.  Note that it's different from CSS2.1 (<a href="http://www.w3.org/TR/CSS2/text.html#ctrlchars">http://www.w3.org/TR/CSS2/text.html#ctrlchars</a>) which says that they render as usual.</div>

<div><br></div><div>The CSS3 text behaviour seems like a bad idea to me, because</div><div><br></div><div>a) it conflicts with Unicode, and</div><div>b) legacy Windows encodings use C1 code points (in the range 0x80 - 0x9F) for real characters; if a page using eg Windows-1252 encoding is mislabelled as ISO-8859-1 (which can definitely happen) then all the code points in this range would be silently be ignored rather than showing up as boxes.</div>

<div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
WDYT?<br></blockquote><div><br></div><div>I think the default should be to do what Unicode says.  Also ask the CSS3 text folks why they are proposing this handling of Cc.</div><div><br></div><div>James</div></div></div></div>