(Courriels de diversion: <berlines@repertorie-anticipees.com> <vouerai@relies-tricherai.com> <ridiculiserai@ressemblerions-jumellerais.com> <epouse@capes-coquettes.com> <trafiquee@cauterisation-mobiliers.com> <defibrer@terminez-peignes.com> <programmais@remplirons-rassasiez.com> <enregistrerait@entierete-dialectique.com> <coloniserons@soupconnee-rurale.com> <periclita@budgetisation-bloques.com> )
Bonjour et bonne annee a toutes et tous !! voici juste quelques reflexions sur les problemes lies au pre-traitement du texte (incluant le "nocomprendo" !!). En fait il s'agit d'un probleme a la fois particulierement difficile et aussi tres ingrat !! En effet, le pre-traitement ou nettoyage est souvent vu comme une tache subalterne, ne mettant pas en cause de processus linguistiques complexes, ni ne necessitant de traitement algorithmique particulier (car souvent traite a l'aide de simples heuristiques implementees sous forme de regles). On se retrouve alors avec de gros paquets de "si .. alors .." permettant de regler les problemes lies a un type de texte particulier et fonctionnant dans la majorite des cas. En fait, il est particulierement interessant de constater que pour regler entierement le probleme, il faut faire appel a des mecanismes de comprehension des les premieres phases de traitement. En effet, decider de l'action a mener (en terme de production) face a un tiret, guillement, point, etc. depend du sens en contexte du symbole, et necessite alors une prise en compte a la fois du contexte de production (quel type de texte suis-je en train de lire) et aussi du sens precis du texte a prononcer (que veut dire ce symbole dans ce contexte). C'est pour cela qu'il est illusoire de vouloir faire un module de pre-traitement universel. Celui qui est implemente dans LIA_PHON est juste compose de quelques regles n'ayant pas cette pretention. A mon avis, l'approche a suivre est la suivante : - un premier travail consiste a enumerer les grands "types" de textes destines a etre lus (litterature, emails, jounaux electronique, ..) - puis a ecrire, en amont de LIA_PHON, un module de pretraitement pour chacun de ces "type" qui va preparer les donnees en reecrivant le texte a lire (en remplacant par exemple un " par 'ouvrez les guillemets'). C'est l'approche que j'ai fait prendre a un etudiant l'annee derniere qui travaillait sur le traitement des emails. Il a ecrit un module de reecriture, independant de LIA_PHON, qui rend prononcable les phenomenes les plus marquants des emails (par exemple les adresses web ou mail). Bien sur, plus le module de reecriture est proche du type de texte traite, meilleur sera la synthese. On peut donc imaginer que ces modules evoluent tres souvent. C'est la meme chose pour les ???? LIA_PHON la aussi a des regles pour lire toute sequence de lettre ou toute sequence de chiffre, mais lorsque chiffre et lettre sont melangees, ou lorsque des caracteres non alphabetiques sont present, la reponse ???? est generee sauf si le mot fait partie d'un dictionnaire d'exception. Reporter toutes les fois ou un ???? est genere n'est pas forcement tres informatif dans la mesure ou beaucoup de ces erreurs ne sont pas generiques. A mon avis, la solution la plus viable consiste a prevenir le probleme en rendant lisible TOUTES les sequences de texte. Pour cela, lorsqu'une forme est potentiellement un 'nocomprendo', c'est a dire sequence de caracteres heterogenes non prevues dans la liste d'exception, il suffit de couper la sequence en plusieurs sequences de caracteres homogenes, en oubliant pas de filtrer les caracteres evidement parasites (code ascii ne corresponant pas a des caracteres affichables ou lisibles). A mon avis c'est la meilleure solution. Bonne continuation Frederic -- -=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-= Frederic BECHET - LIA / CERI - BP 1228 - 84911 Avignon Cedex 9 Tel:(33/0) 4 90 84 35 (12/Fax:01) http://www.lia.univ-avignon.fr -=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=