(Courriels de diversion: <terminez@peignes-programmais.com> <remplirons@rassasiez-enregistrerait.com> <entierete@dialectique-coloniserons.com> <soupconnee@rurale-periclita.com> <budgetisation@bloques-inspiree.com> <annexees@avilis-depose.com> <encrant@secretait-ambree.com> <reexaminant@regretteriez-fusionniez.com> <gauchi@ravisse-crecelle.com> <surestimeriez@repercuter-oisons.com> )


Salut Frédéric,

Content de voir que tu suis d'aussi près ce qui se passe au sein du projet 
biglux.  

Tout à fait d'accord sur ta caractérisation de la phase de nettoyage (que 
j'appelle plutôt formattage) : ça a l'air subalterne alors que ça conditionne 
jusqu'à la prosodie. Ca a l'air mal délimité et confus mais c'est parce que ça 
touche à l'intention qu'il y a derrière les phrases et que les modèles manquent 
à ce niveau là.

Je suis bien d'accord avec le fait qu'il faut s'orienter vers des modules de 
pré-traitement adaptés au type de texte que l'on veut traiter même si je pense 
que les structures enchassées (paranthèses, guillemets, tirets, ...) sont plutôt 
des structures génériques. En fait, pour elles, je pensais plutôt à étendre ton 
système de balises (<s> et </s>) en les mettant en place au moment du 
formattage, conditionnées éventuellement par le type de texte ou de partie de 
texte (par exemple les dialogues), pour ne passer à l'enonciation que juste 
avant la phase de calcul de la prosodie. Il me semble d'ailleurs que ces mêmes 
balises pourrraient s'avérer utiles pour construire la prosodie sans parler 
d'éventuels changements de voix (ou de type de prosodie) pour marquer les 
titres, les passages soulignés, voire les divers personnages d'une pièce de 
théatre (quand ils sont indiqués).

Quant au module de pré-traitement des mails, tu peux te douter qu'on est 
violemment intéressés.

En ce qui concerne le diphone "????" et le "no comprendo" qui en résulte, il 
apparaît, vu les modifications que j'ai faites dans la phase de formattage par 
rapport à ta version, que seules des séquences de caractéres ni alphabétiques 
(accentués compris) ni digitaux peuvent ne pas être phonétisées et se voir 
associer le diphone "????", ce qui correspond sans doute à ce que tu nommes 
"séquence de caractères homogènes". Si tout caractère - non parasite - peut être 
prononcé et que la séquence peut être épelée, il n'y aura plus de "????". C'est 
normalement ce qui est prévu pour dans pas longtemps.

MAIS, compte-tenu qu'il existe sous Emacspeak des modes mot à mot, voire 
caractère à caractère et qu'il existe des séquences de caractères alphabétiques, 
non identifiées comme sigles, qu'il vaut mieux éviter d'essayer de prononcer, 
j'en suis venu à me proposer de transformer le module d'énonciation de la 
ponctuation en un module d'énonciation plus général capable d'épeler toute 
séquence décrétée imprononçable. C'est peu couteux mais il faut transformer le 
module de phonétisation, ou plus simplement le module de syllabisation, de façon 
à ce qu'il décide qu'une séquence n'est pas réellement syllabisable. J'ai été 
voir, ce n'est pas si simple, c'est pourquoi je t'en parle :-)

A part ça, en ce qui concerne la prosodie, j'essaye de mettre en oeuvre ce que 
propose l'équipe d'Aix (Hirst, Di Cristo, Campione, Veronis) qui est la seule 
que j'ai trouvée sur le Net pour le français. Si tu as des points d'entrée pour 
obtenir plus que les articles, on est preneur, encore plus violemment que tout à 
l'heure.

	Roger