Du Texte à la Parole (Introduction)

Préambule

Le but de notre démarche était dans un premier temps de faire l'état de l'art de la LAO au service des handicapés ou déficients visuels dans un environnement le plus libre possible.

Cette démarche nous a apporté des espoirs et des déceptions car :

le niveau de performance des micro-ordinateurs actuels et de leurs cartes son les plus courantes est largement suffisant pour obtenir une LAO de qualité sans autre matériel spécifique
des démonstrations de logiciels - le plus souvent non libres - prouvent la faisabilité de cette approche essentiellement logicielle
les seuls systèmes de LAO libres connus de qualité et de niveau d'intégration suffisants pour une utilisation courante sont (des TTS) essentiellement anglophones
de nombreux universitaires francophones se consacrent aux études (psycho-)linguistiques et ont souvent développé pour leurs recherches des systèmes plus ou moins élaborés de LAO; au final, très peu d'entre eux, surtout parmi les plus célèbres, permettent d'envisager une collaboration visant à atteindre nos buts en matière d'ouverture d'un logiciel de base tel qu'un système de Lecture Assistée par Ordinateur.

C'est pour cela qu'une partie significative de l'énergie du projet BigLux est consacrée désormais au développement/intégration d'une LAO résolument libre en français.

Cela dit, nous ne prétendons pas avoir la science infuse et nous nous devons de citer les travaux principaux qui nous ont donné des pistes ou de la matière concrète à nos réalisations.

Bases de connaissances sur la langue française

Lexique.org [w] a été créé par un groupe de psycho-linguistes qui a notamment publié une base libre décrivant l'utilisation de mots français d'après la compilation d'un corpus de texte de 31 millions de mots.
Cette base nous a notamment servi de référence lors de nos études et tests de règles de traduction automatique de mots isolés en phonèmes.
Le site web de cette organisation fournit des liens intéressants sur ce domaine.

Eléments de systèmes de LAO

L'université de Mons (Belgique) [w] est l'une des plus avancées (au moins en Europe) dans le domaine de la LAO et surtout réputée pour ces bases de données d'enregistrements sonores élémentaires MBROLA. Ces bases sont disponibles au téléchargement pour usage privé pour de très nombreuses langues dont le français (en format hélas binaire encrypté).
Un moteur fourni en format binaire pour de nombreux systèmes d'exploitation permet en utilisant l'une des bases de diphones MBROLA de faire prononcer par une voix enregistrée de bonne qualité un texte préalablement décomposé en notation phonétique (de préférence enrichie de valeurs d'intonations).

On trouve également sur le même site web un système de LAO embryonnaire et libre nommé MBRDICO dont le développement est malheureusement arrêté par ses auteurs.

On trouve également sur le même site web un système de LAO beaucoup plus avancé : LIA_PHON. Plutôt confidentiel, ce logiciel développé à l'Université d'Avignon nous a été signalé seulement en décembre 2002.
Nous fondons désormais beaucoup d'espoir sur lui et comptons en faire l'ossature de notre futur bureau vocal.
Il est disponible sur notre serveur CVS. Voir la page d'installation qui lui est consacrée.

A l'université d'Edimbourg (Ecosse) a été créé le système de LAO le plus complet et libre Festival [w].
Il s'agit d'un environnement d'étude de LAO comprenant de nombreux outils et interfaces de programmation.
C'est probablement cet environnement de travail qui nous permettra de parachever la chaîne complète d'une LAO libre en français incluant des bases de diphones libres.

Festival a un petit frère plus léger développé à l'université de Carnegie Mellon par notamment Alan W Black qui est également à l'origine de Festival : Flite [w]
Flite hélas ne cause pas plus français que son grand frère. Il est (pour le moment) en licence GPL et une passerelle de migration de développements Festival vers Flite est annoncée.

La Freee Software Foundation soutient quant à elle le projet Gnu Speech issu d'un developpement universitaire sous NextStep.
A suivre car pour le moment, les sources n'en sont pas publiés ...

Environnements utilisateur

Développé aux Etats-Unis par un non-voyant (TV Raman) Emacspeak [w] est le projet le plus complet d'environnement d'utilisation de l'outil informatique par un non-voyant ainsi assisté d'une synthèse vocale .

Ce système est en fait un mode (une extension) d'utilisation de l'éditeur Emacs qui permet d'obtenir une LAO des zones tampons affichées à l'écran selon la position du curseur et par unité de : fichier, paragraphe, ligne, mot ou caractère.
Couplé aux autres modules existant pour Emacs, Emacspeak permet d'accomplir une foule de tâches telles que lire et écrire son courrier électronique, surfer sur le Web, écouter de la musique, développer un programme informatique, ...

Projet plus futuriste, le Gnome Accessibility Project en relation avec des membres de la société BAUM proposent depuis peu un lecteur d'écran (synthèse vocale, braille et agrandissement de caractères) qui fonctionnera dans l'environnement Gnome 2 : Voir de la documentation concernant ce projet (http://tux31.homelinux.net/linux/gap.htm [lien mort])
Il semble aussi que KDE commence aussi à apporter sa pierre à l'édifice avec l'initiative KDEAP.
Reste à voir comment diverses applications graphiques pourront être rendues accessibles à un non-voyant grâce aux nouvelles librairies et interfaces de LAO proposées par Gnome 2 ou KDE 3.

Un point technique est à noter concernant ce type d'environnement de bureau vocal : il concerne le partage de la carte son entre plusieurs applications vocales utilisant éventuellement plusieurs langues. Sans doute le Gnome Accessibility Project propose(ra)-t-il une solution à cette question mais on pourra aussi s'intéresser au développement du Speech Daemon (Lien mort http://www.freebsoft.org/project-speechd.html ) de Freebsoft.org [w].

Outils de traitement de la voix numérisée

Pour ce qui concerne le traitement numérique du signal modélisé d'une voix, il existe plusieurs logiciels libres (ou téléchargeables librement pour usage personnel) qui permettent de visualiser, d'analyser et/ou de modifier les caractéristiques d'un échantillon vocal :

MBROLIGN que l'on trouve sur le même site que MBROLA mais qui n'est pas un logiciel libre;
Speech Filling System [w]
Transcriber [w], de Claude Barras (Copyright DGA), écrit en TCL/TK et C;
Emofilt (Lien mort: http://www.kgw.tu-berlin.de/~felixbur/emofilt.html ), un petit outil graphique écrit en TCL/TK qui permet essentiellement d'examiner les déformations simultanées des informations de prosodie d'un fichier phonétisé au format d'entrée de MBROLA et le résultat audio obtenu.

Commentaire

Cette page mériterait bien sûr quelques compléments.

Nous espérons qu'elle et ses liens permettront aux lecteurs intéressés de gagner un peu de temps dans leur initiation concrète pour la mise en oeuvre de tel ou tel logiciel du domaine couvert.

Soyez remerciés d'avance de nous adresser informations, suggestions, commentaires, questions.

Enfin, si vous êtes enthousiastes, n'hésitez pas à rejoindre et alimenter la liste de discussion BigLux :

via e-mail: biglux-subscribe@culte.org
ou via http://www.culte.org (section listes de diffusions)

Le sujet est vaste. Toutes les bonnes volontés sont les bienvenues.

Dernière mise à jour : 13/04/2003

Rédacteur : philsfree

Date de dernière modification: 2003-04-26.
format xhtml transitional: 2005-01-30.