<br><font size=2 face="sans-serif">Marc, How does the need for instant
echoing of keyed characters when entering text fit in with this situation?
&nbsp;Thanks, Pete</font>
<br><font size=2 face="sans-serif"><br>
=====<br>
Pete Brunet, (512) 838-4594, TL 678-4594, brunet@us.ibm.com, ws4g<br>
IBM Accessibility Architecture and Development, 11501 Burnet Road, MS 9026D020,
Austin, TX &nbsp;78758</font>
<br>
<br><font size=2 face="sans-serif">----------------------------------------------------------------------</font>
<br><font size=2 face="sans-serif">Date: Sat, 5 Mar 2005 17:55:27 -0700</font>
<br><font size=2 face="sans-serif">From: &quot;Marc Mulcahy&quot; &lt;marc@plbb.net&gt;</font>
<br><font size=2 face="sans-serif">Subject: RE: [Accessibility] Multimedia
framework requirements</font>
<br><font size=2 face="sans-serif">To: &quot;Gary Cramblitt&quot; &lt;garycramblitt@comcast.net&gt;,</font>
<br><font size=2 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp;
&nbsp; &nbsp; &nbsp; &nbsp;&lt;accessibility@lists.freedesktop.org&gt;</font>
<br><font size=2 face="sans-serif">Message-ID: &lt;KKEGJCDELINGIGICHANAGEKBEDAA.marc@plbb.net&gt;</font>
<br><font size=2 face="sans-serif">Content-Type: text/plain; &nbsp; &nbsp;
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; charset=&quot;iso-8859-2&quot;</font>
<br>
<br><font size=2 face="sans-serif">Well, for what it's worth, here is my
$.02.</font>
<br>
<br><font size=2 face="sans-serif">1. We in the accessibility community
will never succeed in trying to</font>
<br><font size=2 face="sans-serif">re-invent the multimedia server. &nbsp;There
have been many attempts by people</font>
<br><font size=2 face="sans-serif">with expertise in multimedia with varying
degrees of success. &nbsp;So I think</font>
<br><font size=2 face="sans-serif">the right approach is to focus on selecting
an existing solution that comes</font>
<br><font size=2 face="sans-serif">closest to what we need, and either
living with it, or proposing changes</font>
<br><font size=2 face="sans-serif">which will bring it closer to what we
need.</font>
<br>
<br><font size=2 face="sans-serif">2. The biggest oversight in gnome-speech
was that it did not directly handle</font>
<br><font size=2 face="sans-serif">the audio coming out of software synthesizers.
&nbsp;Given my experience with</font>
<br><font size=2 face="sans-serif">several commercial and open source speech
engines, I came to the conclusion</font>
<br><font size=2 face="sans-serif">that the speech framework *must* have
control over the audio samples and</font>
<br><font size=2 face="sans-serif">where they go. &nbsp;If we leave it
up to the speech engines, they will all</font>
<br><font size=2 face="sans-serif">implement things differently, and we
have much less of a good chance of</font>
<br><font size=2 face="sans-serif">providing a good experience for the
end user. &nbsp;Having control over the audio</font>
<br><font size=2 face="sans-serif">gives us better control over quick startup
and stop times, as well as the</font>
<br><font size=2 face="sans-serif">ability to route speech to diferent
destinations-- files, headsets,</font>
<br><font size=2 face="sans-serif">speakers, telephone lines, etc.</font>
<br>
<br><font size=2 face="sans-serif">3. To my mind, ALSA comes the closest
to what we need in an audio framework</font>
<br><font size=2 face="sans-serif">on Linux. &nbsp;It's now standard, and
provides methods for mixing audio streams</font>
<br><font size=2 face="sans-serif">on soundcards which can't do it in hardware.
&nbsp;The prioritization of audio--</font>
<br><font size=2 face="sans-serif">I.E., muting the MP3 player when the
computer needs to speak something or</font>
<br><font size=2 face="sans-serif">when a user receives an internet phone
call, is the only piece which appears</font>
<br><font size=2 face="sans-serif">to be missing.</font>
<br>
<br><font size=2 face="sans-serif">Another audio-related aside... &nbsp;I
think there's been some</font>
<br><font size=2 face="sans-serif">mischaracterization of a requirement.
&nbsp;Everyone seems to suggest that what</font>
<br><font size=2 face="sans-serif">we need is low-latency in an audio server
or environment, and I'm not</font>
<br><font size=2 face="sans-serif">convinced that this is the case. &nbsp;You
need low-latency, or at least good</font>
<br><font size=2 face="sans-serif">synchronization, if for example you
want to animate a character using</font>
<br><font size=2 face="sans-serif">text-to-speech as the voice. &nbsp;But,
I think from an accessibility point of</font>
<br><font size=2 face="sans-serif">view, what we really need is quick start
and shut up times, not necessarily</font>
<br><font size=2 face="sans-serif">low latency, although low latency is
better. &nbsp;For example, from a blind</font>
<br><font size=2 face="sans-serif">usability point of view, I don't care
if the ap sends the sound card a 128</font>
<br><font size=2 face="sans-serif">KB buffer of audio or a 1 KB buffer
of audio, as long as the sound stops</font>
<br><font size=2 face="sans-serif">immediately when I press a key, and
as long as it starts immediately when</font>
<br><font size=2 face="sans-serif">there's something to be spoken.</font>
<br>
<br><font size=2 face="sans-serif">My experience shows that low-latency
is in fact not necessarily desirable</font>
<br><font size=2 face="sans-serif">when working with speech. &nbsp;Presumably
speech is a background process which</font>
<br><font size=2 face="sans-serif">goes on while other more intensive tasks
are happening in the foreground--</font>
<br><font size=2 face="sans-serif">copying a file, filtering audio, or
something of that sort. &nbsp;the lower the</font>
<br><font size=2 face="sans-serif">latency, the harder it is to keep speech
happy in the background, especially</font>
<br><font size=2 face="sans-serif">during periods of high disk activity
or network load.</font>
<br>
<br><font size=2 face="sans-serif">Rather than having to feed the soundcard
1 K blocks of data, I'd rather</font>
<br><font size=2 face="sans-serif">synthesize 64 K of data, and dump it
to the sound card, and let the DMA</font>
<br><font size=2 face="sans-serif">controller transfer it while the processor
does something else. &nbsp;and as long</font>
<br><font size=2 face="sans-serif">as I can shut it up immediately, the
user doesn't know the difference.</font>
<br>
<br><font size=2 face="sans-serif">Marc</font>
<br>
<br><font size=2 face="sans-serif">-----Original Message-----</font>
<br><font size=2 face="sans-serif">From: accessibility-bounces@lists.freedesktop.org</font>
<br><font size=2 face="sans-serif">[mailto:accessibility-bounces@lists.freedesktop.org]On
Behalf Of Gary</font>
<br><font size=2 face="sans-serif">Cramblitt</font>
<br><font size=2 face="sans-serif">Sent: Saturday, March 05, 2005 6:20
AM</font>
<br><font size=2 face="sans-serif">To: accessibility@lists.freedesktop.org</font>
<br><font size=2 face="sans-serif">Subject: Re: [Accessibility] Multimedia
framework requirements</font>
<br>
<br>
<br><font size=2 face="sans-serif">On Friday 04 March 2005 03:43 pm, Hynek
Hanke wrote:</font>
<br><font size=2 face="sans-serif">&gt; 2 Audio requirements</font>
<br>
<br><font size=2 face="sans-serif">You may want to think about supported
audio formats. &nbsp;Most existing synths</font>
<br><font size=2 face="sans-serif">seem to produce .wav files (Microsoft
riff) or .au.</font>
<br>
<br><font size=2 face="sans-serif">Also, there's the issue of how to deliver
the audio to the audio framework.</font>
<br><font size=2 face="sans-serif">Streams could be more efficient than
files? &nbsp;The TTS API discussion has this</font>
<br><font size=2 face="sans-serif">as an unresolved item.</font>
<br>
<br><font size=2 face="sans-serif">--</font>
<br><font size=2 face="sans-serif">Gary Cramblitt (aka PhantomsDad)</font>
<br><font size=2 face="sans-serif">KDE Text-to-Speech Maintainer</font>
<br><font size=2 face="sans-serif">http://accessibility.kde.org/developer/kttsd/index.php</font>
<br>
<br><font size=2 face="sans-serif">------------------------------</font>