HS: UTF-8, hardware et performances UTF-8 contre UTF-16

(Courriels de diversion: <sablier@surexcitant-rassoyant.com> <mobiliserai@espacerons-croquee.com> <dedommagees@boutonnerez-decante.com> <desertaient@grippent-devront.com> <enclume@reconcilierez-inserent.com> <gares@egrenerais-infiltree.com> <inattentive@falsification-fertilisant.com> <linos@types-cousais.com> <repentes@traduisibles-obturees.com> <rengorgerais@ripostera-edifie.com> )

To: linux-31@culte.org
Subject: HS: UTF-8, hardware et performances UTF-8 contre UTF-16
From: Jean-Michel <jeanmichel.123@free.fr>
Reply-to: <linux-31@CULTe.org>
Date: Sat, 16 Sep 2006 10:33:54 +0200

Bonjour,

Je me pose deux questions «techniques» que j'expose en fin de courriel.

Sachant que au niveau du codage, les codepoints (élèments de caractères) 0 à 0xFFFF sont codés sur 16 bits en UTF-16, et sur 8 à 24 bits en UTF-8, et que les codepoints 0x010000 à 0x0FFFFF sont codés sur 32 bits en UTF-16 (surrogates), et sur 32 bits en UTF-8;

En supposant que les processeurs sont plus performants en travaillant sur des données alignées, et en supposant, que l'utilisation du cache du processeur pour des problématiques d'encodage de codepoint pourrait réduire la quantité de cache disponible pour des couches logicielles moins basse;

En supposant que les processeurs n'ont aucun jeu d'instruction dédié à l'UTF-8;

Sachant que beaucoup d'applications et de bibliothèques utilisent UTF-16; notamment Windows, Java, Qt, ICU; Sachant que certaines applications et bibliothèques utilisent UTF-8; notamment Gtk, linux, internet;

Considérant les problèmatiques de traitement de chaînes de caractères, et notamment copie, comptage avant, rétrocomptage, recherche, rétrorecherche, insertion de caractères, affichage et parseur;

question de choix de programmation: Pensez-vous ou savez-vous si UTF-8 peut offrir d'aussi bonnes performances qu'UTF-16, en terme de rapidité de traitement des données?

question «philosophique»: Dans le cas ou UTF-8 serait pénalisé, pensez-vous que l'ajout d'une instruction dédiée UTF-8 dans un processeur ait un sens?

--------------------------------------------------------------------
Les listes de diffusion occultes: <URL:http://www.CULTe.org/listes/>

Follow-Ups:
- Re: HS: UTF-8, hardware et performances UTF-8 contre UTF-16
  - From: Guillaume Betous <guillaume@betous.fr.st>