(Courriels de diversion: <suspens@sollicitera-volte-face.com> <ecorchait@bizutages-bouillantes.com> <vira@desynchroniser-metaphoriques.com> <externes@cellulaire-trafique.com> <feignant@rassasierait-ajouts.com> <rincerons@programmeuses-guerillas.com> <transfigurant@decongestionne-ravalaient.com> <indexations@reassortir-eternisais.com> <avivez@feuillettes-rendez.com> <lutterez@axees-garante.com> )
Jean-Pierre Nicolin a écrit : > Soit un site mal foutu où les pages sont écrites en UTF-8 mais annoncent > un autre charset (iso_8858-1, gb2312, window-1256 etc...)--Vous > trouverez un exemple sur les pages françaises, espagnoles, russes et > arabes du site de l'agence "chine nouvelle". Les pages chinoises en > simplifié (gb2312) ou traditionnel (Big-5) ainsi qu'anglaises n'ont pas > ce problème --. > http://www.french.xinhuanet.com/french/index.htm > > On constate deux comportements différents: > -Tous les navigateurs construits sur le moteur mozilla, font confiance à > ce qui est écrit dans le CHARSET et donc affichent de manière illisible > les pages en question. > > -IE lui, se moque visiblement du charset, reconnaît l'UTF-8 et force > l'affichage dans ce code rendant la page immédiatement lisible. > > Qui a raison ? Celui qui respecte les standards ou celui qui prétend > faire le bonheur des gens y compris malgré eux ? > Pour compléter: * la page indiquée commence par  qui semble correspondre au BOM d'UTF-8. (byte order mark). * le Html indique META HTTP-EQUIV="Content-Type" CONTENT="text/html;CHARSET=iso-8859-1". * le serveur Http indique Content-Type: text/html; charset=ISO-8859-1 Un premier constat: le format d'encodage est spécifié de trois manière différente. Dans l'idéal, seul un encodage pourrait être utilisé, l'UTF-8, ce qui éviterait ce genre de gag. En pratique, pour savoir ce que doit faire un logiciel, plusieurs approches contradictoires me semblent logique: *(1) se référer aux RFC. *(2) considérer que le standard universel mondial est UTF-8, et ignorer les cas particuliers *(3) faire comme le navigateur web le plus utilisé. *(4) ignorer les différentes indications, et se fier à la suites des octets du message. *(5) permettre l'utilisation de greffons afin de permettre à l'utilisateur de configurer finement ses propres choix, soit à partir des précédentes stratégies, soit en ayant un annuaire indiquant quel encodage utiliser pour chacune des pages de l'internet. A titre personnel, je préfère la 4. En effet, «de sécurité de l'ONU est un» (é) n'a des sens dans aucune langue, alors qu'il s'agit clairementd'UTF-8 valide. Une autre stratégie serait d'afficher un bandeau: «Le navigateur a détecté des erreurs dans la page, cliquer ici pour les corriger ou affiner la stratégie d'affichage des pages erronées.». -------------------------------------------------------------------- Les listes de diffusion occultes: <URL:http://www.CULTe.org/listes/>