(Courriels de diversion: <slip@solidarisa-incite.com> <authentiques@prête-profanes.com> <premonitoires@incarcereriez-fêlerait.com> <longilignes@enjoint-experimentais.com> <dechirerons@desherba-osa.com> <etatisa@patronnerez-escampettes.com> <quand@recroquevilleront-etiolee.com> <desorganisee@etatisons-encriez.com> <prolongent@yougoslave-reperdez.com> <zezaiements@festoieraient-entreposaient.com> )
Le Sat, 20 Aug 2011 18:19:02 +0200,
jdd <jdanield@free.fr> a écrit :
> est-ce que vous connaissez un bon programme d'ocr en français?
>
> pour l'instant j'ai gocr et le résultat n'est pas terrible. Je ne
> vois nulle part où le configurer.
>
> Notez que ce que je lui demande est très difficile (original ancien
> tapé à la machine), mais mes résulats ressemblent quand même à un
> décalage iso-utf8
>
> merci
> jdd
Bonjour,
en premier essaye d'employer tesseract ...
paquets :
apt-cache search tesseract
tesseract-ocr - Command line OCR tool
tesseract-ocr-fra - tesseract-ocr language files for French text
remarque :
suivant l'état des documents une passe s'avère nécessaire et la
solution se nomme :
-a) imagemagick
-b) gimp ( gimp-console & script Fu )
lien pour les différentes phases :
http://www.imagemagick.org/script/convert.php
http://docs.gimp.org/en/gimp-using-script-fu-tutorial.html
http://fr.wikipedia.org/wiki/Tesseract_(logiciel)
script pour reprendre les images :
for img in ` tree |grep jpg |awk '{print $2}' |xargs`
do
convert -density 300 $img small-$img
done
conclusion (reprise du post) :
rechercher un post sur debian user french ayant trait à un sujet
similaire ....
date : Fri, 1 Jul 2011 20:20:50 +0200
sujet : convert et noms des fichiers
liste : debian user french
répondu également à Patrick carabin pour ce sujet ...
slt
bernard
-----------------------------------------------------------------
Les listes de diffusion du CULTe - Pour une informatique libre
http://www.CULTe.org/listes/
Pour se desabonner:
mailto:linux-31-unsubscribe@CULTe.org?subject=Cliquez_sur_ENVOYER