[Linux-31] Analyse d'un fichier texte

Mar 24 Jan 08:49:00 CET 2017

Le 24/01/2017 à 00:48, peterpan31 at free.fr a écrit :
> Bonsoir,
>
> Problème complexe :
> Je souhaite connaître le taux de réussite après une passe OCR appliquée à une page en FR.
>
> Evidemment ce taux est relatif puisqu'il ne peut que  s'appliquer sur le résultat de l'OCR, qui lui-même peut être plus ou moins erronné.
>
> Pour calculer ce taux relatif, j'imagine calculer le rapport entre le nombre de mots reconnus dans un dictionnaire et le nombre de mots total de la sortie de l'OCR.
> Mais cette vue est très simpliste... car des cas complexes existent.
>

le problème ce sont les mots trouvés mais faux... à part comparer avec 
une traduction manuelle, je ne vois pas comment faire

peut-être une option "debug" de tesseract?

jdd