(Courriels de diversion: <terminez@peignes-programmais.com> <remplirons@rassasiez-enregistrerait.com> <entierete@dialectique-coloniserons.com> <soupconnee@rurale-periclita.com> <budgetisation@bloques-inspiree.com> <annexees@avilis-depose.com> <encrant@secretait-ambree.com> <reexaminant@regretteriez-fusionniez.com> <gauchi@ravisse-crecelle.com> <surestimeriez@repercuter-oisons.com> )
Salut Frédéric, Content de voir que tu suis d'aussi près ce qui se passe au sein du projet biglux. Tout à fait d'accord sur ta caractérisation de la phase de nettoyage (que j'appelle plutôt formattage) : ça a l'air subalterne alors que ça conditionne jusqu'à la prosodie. Ca a l'air mal délimité et confus mais c'est parce que ça touche à l'intention qu'il y a derrière les phrases et que les modèles manquent à ce niveau là. Je suis bien d'accord avec le fait qu'il faut s'orienter vers des modules de pré-traitement adaptés au type de texte que l'on veut traiter même si je pense que les structures enchassées (paranthèses, guillemets, tirets, ...) sont plutôt des structures génériques. En fait, pour elles, je pensais plutôt à étendre ton système de balises (<s> et </s>) en les mettant en place au moment du formattage, conditionnées éventuellement par le type de texte ou de partie de texte (par exemple les dialogues), pour ne passer à l'enonciation que juste avant la phase de calcul de la prosodie. Il me semble d'ailleurs que ces mêmes balises pourrraient s'avérer utiles pour construire la prosodie sans parler d'éventuels changements de voix (ou de type de prosodie) pour marquer les titres, les passages soulignés, voire les divers personnages d'une pièce de théatre (quand ils sont indiqués). Quant au module de pré-traitement des mails, tu peux te douter qu'on est violemment intéressés. En ce qui concerne le diphone "????" et le "no comprendo" qui en résulte, il apparaît, vu les modifications que j'ai faites dans la phase de formattage par rapport à ta version, que seules des séquences de caractéres ni alphabétiques (accentués compris) ni digitaux peuvent ne pas être phonétisées et se voir associer le diphone "????", ce qui correspond sans doute à ce que tu nommes "séquence de caractères homogènes". Si tout caractère - non parasite - peut être prononcé et que la séquence peut être épelée, il n'y aura plus de "????". C'est normalement ce qui est prévu pour dans pas longtemps. MAIS, compte-tenu qu'il existe sous Emacspeak des modes mot à mot, voire caractère à caractère et qu'il existe des séquences de caractères alphabétiques, non identifiées comme sigles, qu'il vaut mieux éviter d'essayer de prononcer, j'en suis venu à me proposer de transformer le module d'énonciation de la ponctuation en un module d'énonciation plus général capable d'épeler toute séquence décrétée imprononçable. C'est peu couteux mais il faut transformer le module de phonétisation, ou plus simplement le module de syllabisation, de façon à ce qu'il décide qu'une séquence n'est pas réellement syllabisable. J'ai été voir, ce n'est pas si simple, c'est pourquoi je t'en parle :-) A part ça, en ce qui concerne la prosodie, j'essaye de mettre en oeuvre ce que propose l'équipe d'Aix (Hirst, Di Cristo, Campione, Veronis) qui est la seule que j'ai trouvée sur le Net pour le français. Si tu as des points d'entrée pour obtenir plus que les articles, on est preneur, encore plus violemment que tout à l'heure. Roger