Du Texte à la Parole (Introduction)
Préambule
Le but de notre démarche était dans un premier temps de faire l'état de l'art de la LAO
au service des handicapés ou déficients visuels dans un environnement le plus libre
possible.
Cette démarche nous a apporté des espoirs et des déceptions car :
- le niveau de performance des micro-ordinateurs actuels et de leurs cartes son les plus courantes
est largement suffisant pour obtenir une LAO de qualité sans autre matériel spécifique
- des démonstrations de logiciels - le plus souvent non libres -
prouvent la faisabilité de cette approche essentiellement logicielle
- les seuls systèmes de LAO libres connus de qualité et de niveau
d'intégration suffisants pour une utilisation courante
sont (des TTS) essentiellement anglophones
- de nombreux universitaires francophones se consacrent
aux études (psycho-)linguistiques et ont souvent
développé pour leurs recherches des systèmes plus ou moins élaborés de LAO;
au final, très peu d'entre eux, surtout parmi les plus célèbres, permettent
d'envisager une collaboration visant à atteindre nos buts en matière
d'ouverture d'un logiciel de base tel qu'un système de Lecture Assistée
par Ordinateur.
C'est pour cela qu'une partie significative de l'énergie du projet BigLux
est consacrée désormais au développement/intégration d'une LAO résolument libre en français.
Cela dit, nous ne prétendons pas avoir la science infuse et nous nous devons de citer les travaux
principaux qui nous ont donné des pistes ou de la matière concrète à nos réalisations.
Bases de connaissances sur la langue française
Lexique.org
[w]
a été créé par un groupe de psycho-linguistes qui
a notamment publié une base libre décrivant l'utilisation de mots français d'après la compilation
d'un corpus de texte de 31 millions de mots.
Cette base nous a notamment
servi de référence lors de nos études et tests de
règles de traduction automatique de mots isolés en phonèmes.
Le site web de cette organisation fournit des liens intéressants sur ce domaine.
Eléments de systèmes de LAO
L'université de Mons (Belgique)
[w]
est l'une des plus avancées
(au moins en Europe) dans le domaine de la LAO et
surtout réputée pour ces bases de
données d'enregistrements sonores élémentaires MBROLA.
Ces bases sont disponibles au téléchargement pour usage privé
pour de très nombreuses langues dont le français
(en format hélas binaire encrypté).
Un moteur fourni en format binaire pour de nombreux systèmes d'exploitation
permet en utilisant l'une des bases de diphones MBROLA
de faire prononcer par une voix enregistrée de bonne qualité
un texte préalablement décomposé en notation phonétique
(de préférence enrichie de valeurs d'intonations).
On trouve également sur le même site web un système de LAO embryonnaire et libre nommé MBRDICO dont
le développement est malheureusement arrêté par ses auteurs.
On trouve également sur le même site web un système de LAO
beaucoup plus avancé : LIA_PHON. Plutôt confidentiel, ce logiciel
développé à l'Université d'Avignon nous a été signalé seulement en décembre 2002.
Nous fondons désormais beaucoup d'espoir sur lui et comptons en faire
l'ossature de notre futur bureau vocal.
Il est disponible sur notre serveur CVS.
Voir la page d'installation qui lui est consacrée.
A l'université d'Edimbourg (Ecosse) a été créé le système de LAO le plus complet
et libre Festival [w].
Il s'agit d'un environnement d'étude de LAO comprenant de nombreux outils et interfaces de programmation.
C'est probablement cet environnement de travail qui nous permettra
de parachever la chaîne complète d'une LAO
libre en français incluant des bases de diphones libres.
Festival a un petit frère plus léger développé à l'université de Carnegie Mellon par notamment Alan W Black
qui est également à l'origine de Festival : Flite [w]
Flite hélas ne cause pas plus français que son grand frère.
Il est (pour le moment) en licence GPL et une passerelle de migration
de développements Festival vers Flite est annoncée.
La Freee Software Foundation soutient quant à elle le projet Gnu Speech issu d'un developpement universitaire sous NextStep.
A suivre car pour le moment, les sources n'en sont pas publiés ...
Environnements utilisateur
Développé aux Etats-Unis par un non-voyant (TV Raman)
Emacspeak
[w]
est le projet le plus complet d'environnement d'utilisation de l'outil informatique par un
non-voyant ainsi assisté d'une synthèse vocale .
Ce système est en fait un mode (une extension) d'utilisation de l'éditeur Emacs
qui permet d'obtenir une LAO des zones tampons affichées à l'écran selon la
position du curseur et par unité de :
fichier, paragraphe, ligne, mot ou caractère.
Couplé aux autres modules existant pour Emacs, Emacspeak permet d'accomplir une foule de tâches
telles que lire et écrire son courrier électronique, surfer sur le Web, écouter de la musique,
développer un programme informatique, ...
Projet plus futuriste, le Gnome Accessibility Project en relation avec des membres de la société BAUM proposent depuis peu un lecteur d'écran (synthèse vocale, braille et agrandissement de caractères) qui fonctionnera dans l'environnement Gnome 2 :
Voir de la documentation concernant ce projet
(http://tux31.homelinux.net/linux/gap.htm [lien mort])
Il semble aussi que KDE commence aussi à apporter sa pierre à l'édifice
avec l'initiative KDEAP.
Reste à voir comment diverses applications graphiques pourront être rendues
accessibles à un non-voyant grâce aux nouvelles librairies et interfaces
de LAO proposées par Gnome 2 ou KDE 3.
Un point technique est à noter concernant ce type d'environnement de bureau vocal :
il concerne le partage de la carte son entre plusieurs applications vocales utilisant
éventuellement plusieurs langues.
Sans doute le Gnome Accessibility Project propose(ra)-t-il une solution à cette question
mais on pourra aussi s'intéresser au développement du
Speech Daemon
(Lien mort http://www.freebsoft.org/project-speechd.html )
de
Freebsoft.org
[w].
Outils de traitement de la voix numérisée
Pour ce qui concerne le traitement numérique du signal modélisé d'une voix,
il existe plusieurs logiciels libres (ou téléchargeables librement
pour usage personnel) qui permettent de visualiser,
d'analyser et/ou de modifier les caractéristiques
d'un échantillon vocal :
-
MBROLIGN que l'on trouve sur le même site que MBROLA
mais qui n'est pas un logiciel libre;
-
Speech Filling System
[w]
-
Transcriber
[w],
de Claude Barras (Copyright DGA), écrit en TCL/TK et C;
-
Emofilt
(Lien mort: http://www.kgw.tu-berlin.de/~felixbur/emofilt.html ),
un petit outil graphique écrit en TCL/TK qui permet essentiellement d'examiner
les déformations simultanées des informations de prosodie d'un fichier
phonétisé au format d'entrée de MBROLA
et le résultat audio obtenu.
Commentaire
Cette page mériterait bien sûr quelques compléments.
Nous espérons qu'elle et ses liens permettront aux lecteurs intéressés de
gagner un peu de temps dans leur initiation concrète pour la mise en oeuvre de
tel ou tel logiciel du domaine couvert.
Soyez remerciés d'avance de nous adresser informations, suggestions,
commentaires, questions.
Enfin, si vous êtes enthousiastes, n'hésitez pas à rejoindre et alimenter
la liste de discussion BigLux :
Le sujet est vaste. Toutes les bonnes volontés sont les bienvenues.
Dernière mise à jour : 13/04/2003 |
Rédacteur : philsfree |
Date de dernière modification: 2003-04-26.
format xhtml transitional: 2005-01-30.