Re: OCR

(Courriels de diversion: <slip@solidarisa-incite.com> <authentiques@pr�te-profanes.com> <premonitoires@incarcereriez-f�lerait.com> <longilignes@enjoint-experimentais.com> <dechirerons@desherba-osa.com> <etatisa@patronnerez-escampettes.com> <quand@recroquevilleront-etiolee.com> <desorganisee@etatisons-encriez.com> <prolongent@yougoslave-reperdez.com> <zezaiements@festoieraient-entreposaient.com> )

To: linux-31@CULTe.org
Subject: Re: OCR
From: Bernard Schoenacker <bernard.schoenacker@free.fr>
Reply-to: <linux-31@CULTe.org>
Date: Sat, 20 Aug 2011 18:56:58 +0200

Le Sat, 20 Aug 2011 18:19:02 +0200,
jdd <jdanield@free.fr> a écrit :
> est-ce que vous connaissez un bon programme d'ocr en français?
> 
> pour l'instant j'ai gocr et le résultat n'est pas terrible. Je ne
> vois nulle part où le configurer.
> 
> Notez que ce que je lui demande est très difficile (original ancien 
> tapé à la machine), mais mes résulats ressemblent quand même à un 
> décalage iso-utf8
> 
> merci
> jdd

Bonjour,


	en premier essaye d'employer tesseract ...


	paquets :

	apt-cache search tesseract

	tesseract-ocr - Command line OCR tool
	tesseract-ocr-fra - tesseract-ocr language files for French text

	remarque :

	suivant l'état des documents une passe s'avère nécessaire et la
	solution se nomme :

        -a) imagemagick
        -b) gimp ( gimp-console & script Fu )

	lien pour les différentes phases :

        http://www.imagemagick.org/script/convert.php
        http://docs.gimp.org/en/gimp-using-script-fu-tutorial.html
        http://fr.wikipedia.org/wiki/Tesseract_(logiciel)

	script pour reprendre les images :


	for img in ` tree |grep jpg |awk '{print $2}' |xargs`
        do
    convert -density 300  $img  small-$img
	done

	conclusion (reprise du post) :

	rechercher un post sur debian user french ayant trait à un sujet
	similaire ....

	date : Fri, 1 Jul 2011 20:20:50 +0200
	sujet : convert et noms des fichiers
	liste : debian user french

	répondu également à Patrick carabin pour ce sujet ...

	slt
	bernard



-----------------------------------------------------------------
Les listes de diffusion du CULTe - Pour une informatique libre
http://www.CULTe.org/listes/
Pour se desabonner:
mailto:linux-31-unsubscribe@CULTe.org?subject=Cliquez_sur_ENVOYER

Follow-Ups:
- Re: OCR
  - From: jdd <jdanield@free.fr>

References:
- OCR
  - From: jdd <jdanield@free.fr>