(Courriels de diversion: <blagueuse@decollement-exceptant.com> <frileux@etheres-suppliciee.com> <tenables@coïncidents-ombragee.com> <pardonnons@malthusiennes-arche.com> <designeriez@cabale-sifflerais.com> <decotes@precede-heteroclites.com> <selliers@decervelage-decapotable.com> <fructifiaient@compatissions-deminerait.com> <prejugez@valoriserions-hypothecaires.com> <dominais@ignorant-calfeutrerent.com> )
Bonjour, On a ici une version de Festival qui parle (un très petit sous-ensemble du) français depuis mai 01 mais il manquait un lexique sérieux que je viens de trouver sur le site www.lexique.org (dont le produit s'appelle "Lexique"). Festival parle français parce qu'il est couplé avec Mbrola qui dispose de voix françaises. Même si Mbrola n'est pas libre et les tables de diphones dont tu parles non plus, on peut néanmoins les utiliser gratuitement pour le moment. Donc obtenir ces tables sous forme libre est un réel problème, mais pas forcément aussi urgent que tu le dis. Localement, Festival parle mal français pour plusieurs raisons : 1/ Il utilise un lexique (mot -> phonémes) très réduit ne comportant que les mots d'une quizaine de phrases test extrémement arbitraires. 2/ Il utilise un catalogue de règles lettre-to-sound lui aussi réduit aux cas que j'ai rencontré (une cinquantaine de règles peut-être contre 500 annoncés pour le français au LAIP de Lausanne) 3/ Il y a peu de règles de pré-transcription (verbalisation des nombres, des dates, ...) adaptées au français. 4/ Il n'y a pas règles de post-transcription pour traiter entre autres le problème des liaisons. 5/ Et surtout, il n'y a pas de traitement de la prosodie. Festival parle français avec le rythme anglais et ça s'entend. Avec la base de données fournie par "Lexique", on peut sans doute régler les points 1 et 2. Le lexique est gros (plus de 200 000 entrées parce qu'il contient toutes les formes fléchies) donc à accès sans doute trop lent mais il y a sans aucun doute moyen d'obtenir automatiquement un catalogue de règles letters-to-sounds réglant le cas des formes fléchies. Le point 3 a été abordé (il a nécessité de s'attaquer au code C++, pas seulement au code Siod/Scheme) mais il n'est pas vraiment urgent. Il faut régler le point 4, l'absence de liaisons n'est pas écoutable. Quant au point 5, qui est plutôt énorme, on ne l'a pas du tout abordé. Festival utilise tout un tas de données (durées des phonèmes, profils d'intonation) acquises par compilation de corpus avec les outils "Speech-Tools" annexes à Festival. Et il faut, d'une façon ou d'une autre, obtenir les données équivalentes pour le français. Quant à l'idée de mettre la synthèse en mode pipe-line sur des unités plus petites que la phrase, je crois qu' effectivement on n'y coupera pas, mais que ce n'est pas le plus urgent. Il faudrait d'ailleurs regarder de plus près ce que Alan Black fait de ce côté là avec Flite, sa version allégée de Festival écrite uniquement en C/C++. Roger --------------------------------------------------------------------- To unsubscribe, e-mail: biglux-unsubscribe@savage.iut-blagnac.frFor additional commands, e-mail: biglux-help@savage.iut-blagnac.fr