(Courriels de diversion: <blagueuse@decollement-exceptant.com> <frileux@etheres-suppliciee.com> <tenables@coïncidents-ombragee.com> <pardonnons@malthusiennes-arche.com> <designeriez@cabale-sifflerais.com> <decotes@precede-heteroclites.com> <selliers@decervelage-decapotable.com> <fructifiaient@compatissions-deminerait.com> <prejugez@valoriserions-hypothecaires.com> <dominais@ignorant-calfeutrerent.com> )


Bonjour,

On a ici une version de Festival qui parle (un très petit sous-ensemble du) 
français depuis mai 01 mais il manquait un lexique sérieux que je viens de 
trouver sur le site www.lexique.org (dont le produit s'appelle "Lexique").

Festival parle français parce qu'il est couplé avec Mbrola qui dispose de voix 
françaises. Même si Mbrola n'est pas libre et les tables de diphones dont tu 
parles non plus, on peut néanmoins les utiliser gratuitement pour le moment. 
Donc obtenir ces tables sous forme libre est un réel problème, mais pas 
forcément aussi urgent que tu le dis.

Localement, Festival parle mal français pour plusieurs raisons :

1/ Il utilise un lexique (mot -> phonémes) très réduit ne comportant que les 
mots d'une quizaine de phrases test extrémement arbitraires.

2/ Il utilise un catalogue de règles lettre-to-sound lui aussi réduit aux cas 
que j'ai rencontré (une cinquantaine de règles peut-être contre 500 annoncés 
pour le français au LAIP de Lausanne)

3/ Il y a peu de règles de pré-transcription (verbalisation des nombres, des 
dates, ...) adaptées au français.

4/ Il n'y a pas règles de post-transcription pour traiter entre autres le 
problème des liaisons.

5/ Et surtout, il n'y a pas de traitement de la prosodie. Festival parle 
français avec le rythme anglais et ça s'entend.

Avec la base de données fournie par "Lexique", on peut sans doute régler les 
points 1 et 2. Le lexique est gros (plus de 200 000 entrées parce qu'il contient 
toutes les formes fléchies) donc à accès sans doute trop lent mais il y a sans 
aucun doute moyen d'obtenir automatiquement un catalogue de règles 
letters-to-sounds réglant le cas des formes fléchies.

Le point 3 a été abordé (il a nécessité de s'attaquer au code C++, pas seulement 
au code Siod/Scheme) mais il n'est pas vraiment urgent.

Il faut régler le point 4, l'absence de liaisons n'est pas écoutable.

Quant au point 5, qui est plutôt énorme, on ne l'a pas du tout abordé. Festival 
utilise tout un tas de données (durées des phonèmes, profils d'intonation) 
acquises par compilation de corpus avec les outils "Speech-Tools" annexes à 
Festival. Et il faut, d'une façon ou d'une autre, obtenir les données 
équivalentes pour le français.

Quant à l'idée de mettre la synthèse en mode pipe-line sur des unités plus 
petites que la phrase, je crois qu' effectivement on n'y coupera pas, mais que 
ce n'est pas le plus urgent. Il faudrait d'ailleurs regarder de plus près ce que 
Alan Black fait de ce côté là avec Flite, sa version allégée de Festival écrite 
uniquement en C/C++.

	Roger


---------------------------------------------------------------------
To unsubscribe, e-mail: biglux-unsubscribe@savage.iut-blagnac.frFor additional commands, e-mail: biglux-help@savage.iut-blagnac.fr