Compte-rendu reunion BigLux du 29/1/2005

(Courriels de diversion: <disputeront@blasonner-hissais.com> <obstines@commemorerez-abrutissions.com> <discuterent@tantieme-remilitariser.com> <decapitez@abat-degrisaient.com> <epanouissiez@vilipenderont-releguerent.com> <parades@efforciez-deflation.com> <banniraient@agressais-tricoterai.com> <lenifiantes@frigidite-immortel.com> <marmonneront@radiographiee-reflechissiez.com> <annoterons@cumuliez-flux.com> )

To: ML biglux <biglux@culte.org>
Subject: Compte-rendu reunion BigLux du 29/1/2005
From: philsfree <philsfree@free.fr>
Date: Sat, 05 Feb 2005 10:31:20 +0100



AUDIENCE, MOTIVATIONS
:::::::::::::::::::::

2 Présents de plus que le 15/1 : Eric Marsden (déjà contributeur) et un
nouveau dont le nom m'échappe.
Ce qui fait une réponse favorable par rapport à l'appel de FAVDB sur la
liste (plutôt agitée) du CULTe : linux-31.
Réjouissons-nous de ce soutien accru à notre démarche désormais
essentiellement orienté vers le développement d'une synthèse vocale
  libre en langue française.

DEBATS
::::::

FAVDB nous a d'abord présenté ses investigations sur RSynth et ses
espoirs basés sur la technique des formants.
Pour continuer dans cette voie, il y aurait à :
- toiletter le code de RSynth pour y enlever des outils d'émission du
son qui doivent appartenir à des librairies plus généralistes (ex : Alsa)
- affiner la définition formantique (mathématique) des phonèmes français
- éviter des phénomènes de cliquetis apparaissant lors du collage de 
phonèmes.
Un des avantages de cette approche serait que RSynth pourrait se 
contenter de la définition d'une trentaine de phonèmes au lieu de près 
d'un millier de diphones, pour la langue française.

Roger a alors objecté que les formants ne savent pas modéliser (NDLR :
correctement ?) les consonnes.
Le débat s'est alors orienté vers l'adoption de la plateforme Festvox
qui est censée mettre à disposition les outils nécessaires à la création
de bases de données diphoniques dans 2 variantes possibles :
Unisyn et Psola (la 1ère semblant de meilleure qualité).
(NDLR : de plus Psola n'apparaît pas libre).

Quelle que soit la solution choisie, Praat (avec ses représentations en
spectrogrammes et sous la forme de 4 formants parmi 8 théoriques) 
apparaît comme un outil assez puissant pour affiner la définition des 
éléments de base d'une synthèse vocale.
FAVDB nous a gratifié d'une démonstration de cet outil dont notamment
des possibilités de marquage textuel (Annotate Text Grid) de portions
d'un échantillon sonore.
De plus, un langage de script permet d'appliquer des filtres sur de
telles portions (exemple : détecteur de pitch, ...)

Une autre question a été posée par Eric à propos d'interopérabilité
entre outils. En suspens, il restait à vérifier si Festival sait jouer 
une entrée au format phonétique d'entrée de Mbrola (actuellement produit
en sortie de LLiaPhon, par exemple). Roger s'est engagé à débroussailler
le terrain à ce sujet.
Provisoirement, il semble que ce format soit probablement assez
universel pour le conserver comme base de travail.

CONCLUSIONS
:::::::::::
1 - une prochaine réunion a été planifiée au CULTe : le 26/2/2005, à 15h
2 - comme devoir de vacances d'hiver et pour la prochaine réunion, tout
le monde doit s'imprégner du document de référence de Festvox : Building
Synthetic Voices
http://festvox.org/bsv

-- 
Phil