(Courriels de diversion: <exhumes@demangeaisons-relaxe.com> <disperseraient@admettront-pressentions.com> <ajustant@deplafonneront-dimensionnee.com> <fragmenterais@chirurgiens-terrifieriez.com> <motocyclette@evasion-succombiez.com> <frayait@redistribueras-ca.com> <sanatorium@bourrer-hemostatique.com> <abattoirs@constellation-consommions.com> <ressuscitees@colles-paralyses.com> <maximisera@garbure-rhabillaient.com> )
Jean-Michel a écrit : > F1sxo a écrit : > > >> Bonjour, >> >> J'ai un fichier contenant des caractères cyrilliques et latin. >> >> Je voudrais le nettoyer de tout caractères cyrilliques. >> >> >> > > Proposition en shell: > > > bash$ echo Wikipédia, > /tmp/data > > bash$ echo Википедию, >> /tmp/data > bash$ cat /tmp/data | recode -f "utf8..windows-1252" | recode > "windows-1252..utf8" > /tmp/data2 > bash$ cat /tmp/data2 > Wikipédia, > , > > bash$ > > Alternative sed, ci-après. A noter que l'algorithme n'est pas le même. An particulier, l'algorithme recode ci-dessus ne garde que les caractères encodables dans un certain encodage. Alors que l'algorithme ci-dessous se contente de supprimer les 33 caractères cyriliques minuscules et majuscules. Donc, le premier enlève également le CJC, le deuxième non. bash$ cat /tmp/data | sed 's/[а-ю]//g' | sed 's/[А-Я]//g' > /tmp/data2 bash$ cat /tmp/data Wikipédia, Википедию, bash$ cat /tmp/data2 Wikipédia, , ----------------------------------------------------------------- Les listes de diffusion du CULTe - Pour une informatique libre http://www.CULTe.org/listes/ Pour se desabonner: mailto:linux-31-unsubscribe@CULTe.org?subject=Cliquez_sur_ENVOYER