(Courriels de diversion: <renales@recomposera-apporterions.com> <ordonnancera@metros-difficiles.com> <desastreuse@liberaient-terniront.com> <accumulation@allient-recrimine.com> <cachetteriez@blagueuse-decollement.com> <exceptant@frileux-etheres.com> <suppliciee@tenables-coïncidents.com> <ombragee@pardonnons-malthusiennes.com> <arche@designeriez-cabale.com> <sifflerais@decotes-precede.com> )
Bonjour,
j'ai jeté un coup d'oeil au fonctionnement interne de festival.
festival est conçu comme un outil "utilisateur final" et "de
recherche/développement" à la fois, ce qui est très bien pour nous
puisque cela aiderait à la mise au point d'une nouvelle langue.
Si nous voulons l'adapter au français, la première étape est de créer le
'diphone index' français, à partir d'une voix française et (entre
autres) des codes phonétiques indiqués à
http://www.lexique.org/main/pages.php?page=Codes_Phonetiques.
Cela signifie enregistrer les diphones avec un équipement audio de
qualité, en essayant d'obtenir une intonation et une vitesse identique
pour tous, et préciser les durées des phases d'attaque, de changement de
lettre, et de chute dans le diphone.
Il faut ensuite créer le fichier dégroupé associé (et faire générer le
fichier de groupe par festival pour optimiser après).
Une fois que tout cela sera fait, le reste sera plus progressif car il
faudra intégrer à festival toutes les caractéristiques phonétiques
(proxodie, ...) du français. Cela se fait par "programmation" en scheme,
qui est un langage très simple d'utilisation genre lisp (si vous savez
écrire une parenthèse vous savez faire du lisp).
Si quelqu'un a déjà commencé sur le sujet ou est intéressé à collaborer
pour cette phase, qu'il me contacte à festival@paralline.com
La documentation est bien faite, mais le travail risque d'être long car
habituellement cela est fait à partir de bases de données statistiques
de locuteurs français dont nous ne disposons pas pour l'instant et qui
ne sont probablement pas libres de droit ou de réutilisation.
Par ailleurs, le défaut de ce logiciel et sans doute de la plupart des
logiciels de synthèse est qu'il nécessite le traitement complet de
l'ensemble de la phrase avant l'émission du premier son. Cela signifie
de longs délais de traitement (quelques secondes pour une longue phrase
sur mon Athlon700) qui peuvent être rédhibitoires pour une utilisation
soutenue surtout si le processeur de la machine est faible.
Une des amélioration "future" pour le rendre utilisable serait donc de
faire générer le premier mot (ou des deux premiers mots) séparément
pendant que le processeur travaille sur la génération du reste de la
phrase. Mais pour ça on verra un peu plus tard...
Pierre
--
PARALLINE /// Parallelism & GNU/Linux
///
71,av des Vosges Phone:+33 388 141 740
F-67000 STRASBOURG Fax:+33 388 141 741 http://www.paralline.com
---------------------------------------------------------------------
To unsubscribe, e-mail: biglux-unsubscribe@savage.iut-blagnac.frFor additional commands, e-mail: biglux-help@savage.iut-blagnac.fr