(Courriels de diversion: <berlines@repertorie-anticipees.com> <vouerai@relies-tricherai.com> <ridiculiserai@ressemblerions-jumellerais.com> <epouse@capes-coquettes.com> <trafiquee@cauterisation-mobiliers.com> <defibrer@terminez-peignes.com> <programmais@remplirons-rassasiez.com> <enregistrerait@entierete-dialectique.com> <coloniserons@soupconnee-rurale.com> <periclita@budgetisation-bloques.com> )


Bonjour et bonne annee a toutes et tous !!

voici juste quelques reflexions sur les problemes lies au
pre-traitement du texte (incluant le "nocomprendo" !!). En fait
il s'agit d'un probleme a la fois particulierement difficile et
aussi tres ingrat !! En effet, le pre-traitement ou nettoyage est
souvent vu comme une tache subalterne, ne mettant pas en cause
de processus linguistiques complexes, ni ne necessitant de
traitement algorithmique particulier (car souvent traite a l'aide
de simples heuristiques implementees sous forme de regles).
On se retrouve alors avec de gros paquets de "si .. alors .."
permettant de regler les problemes lies a un type de texte
particulier et fonctionnant dans la majorite des cas.
En fait, il est particulierement interessant de constater que
pour regler entierement le probleme, il faut faire appel a des
mecanismes de comprehension des les premieres phases de traitement.
En effet, decider de l'action a mener (en terme de production) face
a un tiret, guillement, point, etc. depend du sens en contexte du
symbole, et necessite alors une prise en compte a la fois du contexte
de production (quel type de texte suis-je en train de lire) et aussi
du sens precis du texte a prononcer (que veut dire ce symbole
dans ce contexte). C'est pour cela qu'il est illusoire de vouloir
faire un module de pre-traitement universel. Celui qui est implemente
dans LIA_PHON est juste compose de quelques regles n'ayant pas
cette pretention.  A mon avis, l'approche a suivre est la suivante :
- un premier travail consiste a enumerer les grands "types" de textes
destines a etre lus (litterature, emails, jounaux electronique, ..)
- puis a ecrire, en amont de LIA_PHON, un module de pretraitement pour
chacun de ces "type" qui va preparer les donnees en reecrivant le texte
a lire (en remplacant par exemple un " par 'ouvrez les guillemets').
C'est l'approche que j'ai fait prendre a un etudiant l'annee derniere
qui travaillait sur le traitement des emails. Il a ecrit un module
de reecriture, independant de LIA_PHON, qui rend prononcable les
phenomenes les plus marquants des emails (par exemple les adresses
web ou mail). Bien sur, plus le module de reecriture est proche du
type de texte traite, meilleur sera la synthese. On peut donc imaginer
que ces modules evoluent tres souvent.

C'est la meme chose pour les ????  LIA_PHON la aussi
a des regles pour lire toute sequence de lettre ou toute sequence
de chiffre, mais lorsque chiffre et lettre sont melangees, ou lorsque
des caracteres non alphabetiques sont present, la reponse ????
est generee sauf si le mot fait partie d'un dictionnaire d'exception.
Reporter toutes les fois ou un ???? est genere n'est pas forcement
tres informatif dans la mesure ou beaucoup de ces erreurs ne sont
pas generiques. A mon avis, la solution la plus viable consiste a
prevenir le probleme en rendant lisible TOUTES les sequences de texte.
Pour cela, lorsqu'une forme est potentiellement un 'nocomprendo',
c'est a dire sequence de caracteres heterogenes non prevues dans la
liste d'exception, il suffit de couper la sequence en plusieurs
sequences
de caracteres homogenes, en oubliant pas de filtrer les caracteres
evidement parasites (code ascii ne corresponant pas a des caracteres
affichables ou lisibles).
A mon avis c'est la meilleure solution.

Bonne continuation

Frederic


-- 
-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=
Frederic BECHET -  LIA / CERI - BP 1228 - 84911 Avignon  Cedex 9
Tel:(33/0) 4 90 84 35 (12/Fax:01) http://www.lia.univ-avignon.fr
-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=