(Courriels de diversion: <suspens@sollicitera-volte-face.com> <ecorchait@bizutages-bouillantes.com> <vira@desynchroniser-metaphoriques.com> <externes@cellulaire-trafique.com> <feignant@rassasierait-ajouts.com> <rincerons@programmeuses-guerillas.com> <transfigurant@decongestionne-ravalaient.com> <indexations@reassortir-eternisais.com> <avivez@feuillettes-rendez.com> <lutterez@axees-garante.com> )


Jean-Pierre Nicolin a écrit :

> Soit un site mal foutu où les pages sont écrites en UTF-8 mais annoncent
> un autre charset (iso_8858-1, gb2312, window-1256 etc...)--Vous
> trouverez un exemple sur les pages françaises, espagnoles, russes et
> arabes du site de l'agence "chine nouvelle". Les pages chinoises en
> simplifié (gb2312) ou traditionnel (Big-5) ainsi qu'anglaises n'ont pas
> ce problème --.
> http://www.french.xinhuanet.com/french/index.htm
>
> On constate deux comportements différents:
> -Tous les navigateurs construits sur le moteur mozilla, font confiance à
> ce qui est écrit dans le CHARSET et donc affichent de manière illisible
> les pages en question.
>
> -IE lui, se moque visiblement du charset, reconnaît l'UTF-8 et force
> l'affichage dans ce code rendant la page immédiatement lisible.
>
> Qui a raison ? Celui qui respecte les standards ou celui qui prétend
> faire le bonheur des gens y compris malgré eux ?
>   
Pour compléter:
* la page indiquée commence par  qui semble correspondre au BOM
d'UTF-8. (byte order mark).
* le Html indique META HTTP-EQUIV="Content-Type"
CONTENT="text/html;CHARSET=iso-8859-1".
* le serveur Http indique Content-Type: text/html; charset=ISO-8859-1

Un premier constat: le format d'encodage est spécifié de trois manière
différente.
Dans l'idéal, seul un encodage pourrait être utilisé, l'UTF-8, ce qui
éviterait ce genre de gag.

En pratique, pour savoir ce que doit faire un logiciel, plusieurs
approches contradictoires me semblent logique:
*(1) se référer aux RFC.
*(2) considérer que le standard universel mondial est UTF-8, et ignorer
les cas particuliers
*(3) faire comme le navigateur web le plus utilisé.
*(4) ignorer les différentes indications, et se fier à la suites des
octets du message.
*(5) permettre l'utilisation de greffons afin de permettre à
l'utilisateur de configurer finement ses propres choix, soit à partir
des précédentes stratégies, soit en ayant un annuaire indiquant quel
encodage utiliser pour chacune des pages de l'internet.


A titre personnel, je préfère la 4.
En effet, «de sécurité de l'ONU est un» (é) n'a des sens dans aucune
langue,
alors qu'il s'agit clairementd'UTF-8 valide.


Une autre stratégie serait d'afficher un bandeau: «Le navigateur a
détecté des erreurs dans la page, cliquer ici pour les corriger ou
affiner la stratégie d'affichage des pages erronées.».













--------------------------------------------------------------------
Les listes de diffusion occultes: <URL:http://www.CULTe.org/listes/>