À la découverte d'Unicode/Fonctionnalités usuelles et algorithmes

Applications

Programmation

À la découverte d'Unicode

Sommaire

Le contexte

Héritage de la télégraphie à Unicode ^
Unicode : institutions et versions
(renommer le chapitre: et standard) ⪾

Les textes Unicode

La notion de caractère 𝓌
Présentation du répertoire ⺇
Propriétés de caractère ϐ
Codage (UTF-8, UTF-16 et UCS-2)
Applications ✉
Fonctionnalités usuelles et algorithmes ض

Pour les développeurs

Annexes

Version imprimable

[ Modifier le sommaire ]

Applications

Programmation

Ébauche (Liste complète des ébauches)

Cette page est considérée comme une ébauche à compléter . Si vous possédez quelques connaissances sur le sujet, vous pouvez les partager en éditant dès à présent cette page (en cliquant sur le lien « modifier »).

Ressources suggérées : Aucune (vous pouvez indiquer les ressources que vous suggérez qui pourraient aider d'autres personnes à compléter cette page dans le paramètre « ressources » du modèle^? engendrant ce cadre)

Le standard Unicode et les différents documents y afférant traitent des domaines suivants pour lesquels ils peuvent servir de guide:

algorithmes pour gérer les changements de sens d'écriture de gauche à droite et de droite à gauche (comme en arabe ou en hébreu)
ordre alphabétiques et collation dans différentes langue
conversion de casse
équivalences de texte
division des mots et coupure de ligne
régionalisation des nombres et autres considérations
spécificités des combinaisons et ré-ordonnancement des langues sudasiatiques
problématique de sécurité liés à la ressemblance de caractères différents à travers le monde.

sens d'écriture de gauche à droite et de droite à gauche (comme en arabe ou en hébreu)

Certains systèmes d’écritures, tels que l’alphabet arabe et hébreu, s’écrivent de droite à gauche (Right-To-Left, RTL, en anglais). Dans ce cas, le texte commence du côté droit de la page et se termine du côté gauche, au contraire du sens d’écriture conventionnel de gauche à droite (Left-To-Right, LTR) des langues utilisant l’alphabet latin (telles que le français). Lorsqu’un texte LTR est mélangé avec un texte RTL dans le même paragraphe, chaque type de texte doit être écrit dans son propre sens, phénomène connu sous le nom de texte bidirectionnel.

En savoir plus sur wikipedia: wikipedia:Texte bidirectionnel

ordre alphabétiques et collation dans différentes langue

Le classement alphabétique ne doit pas être confondu avec le simple ordre alphabétique, qui ordonne un alphabet et ne concerne donc que des signes, tandis que le classement alphabétique porte sur des mots de longueurs diverses et peut comprendre plusieurs milliers d'éléments. Bien qu'on en ait vu quelques tentatives sous diverses latitudes et à diverses époques^[1], il apparut véritablement avec la Souda, une encyclopédie byzantine du X^e siècle contenant 30 000 entrées^[2].

L'ordre alphabétique resta longtemps une spécialité purement européenne : jusqu'au milieu du XX^e siècle, les dictionnaires non-occidentaux demeurèrent classés par thèmes ou par racines grammaticales.

Le classement alphabétique révolutionna l'activité commerciale en Occident. Il devint possible avec lui de travailler avec des listes de plusieurs centaines – voire de milliers – de noms de clients, articles, fournisseurs, villes, sous-traitants, créanciers, débiteurs et correspondants divers sans plus de difficulté de recherche que sur une liste désordonnée d'une vingtaine de noms. Il révolutionna aussi l'activité savante et la structure des ouvrages grâce à la constitution d'index et à la mise en place de dictionnaires et d'encyclopédies faciles à consulter.

Pour des raisons d'habitudes, d'ancienneté du principe, ou de facilité de mise en œuvre, de nombreux développeurs de logiciels utilisent ou ont utilisé le classement selon l’ordre des codes dans le codage de caractères utilisé (par exemple ASCII ou UTF-8), nommé ordre lexicographique. Ce classement coïncide avec le classement alphabétique pour les mots contenant uniquement des lettres sans diacritique et toutes en majuscule (ou en minuscules), mais donne un résultat généralement incorrect dès qu’il y a des diacritiques, des espaces, des signes de ponctuations ou un mélange de lettres capitales et minuscules (ce dernier point est toutefois facilement résolu en convertissant tout en capitale).

La notion de "LOCALE" dans les systèmes d'exploitation permet aux fonctions de comparaison de mots d'effectuer les bonnes équivalences dans la langue considérés. En français, (A,À,Â,Ä,ä,â,à), etc. - alors que les codes de ces lettres sont loin d'être voisins. Ainsi, il n'y a pas à recompiler une même application pour chaque langue existante.

Ce sujet est discuté, en langue anglaise par les règles technique Unicode n°10 (Unicode Technical Standard «UTS 10 Unicode Collation Algorithm»).

conversion de casse

Cette section est vide, pas assez détaillée ou incomplète. Votre aide est la bienvenue !

équivalences de texte

Unicode contient de nombreux caractères. Pour maintenir la compatibilité avec des standards existants, certains d’entre eux sont équivalents à d’autres caractères ou à des séquences de caractères. Unicode fournit deux notions d’équivalence : canonique et de compatibilité, la première étant un sous-ensemble de la deuxième. Par exemple, le caractère n suivi du diacritique tilde ◌̃ est canoniquement équivalent et donc compatible au simple caractère Unicode ñ, tandis que la ligature typographique ff est seulement compatible avec la séquence de deux caractères f.

La normalisation Unicode est une normalisation de texte qui transforme des caractères ou séquences de caractères en une même représentation équivalente, appelée « forme normale » dans cet article. Cette transformation est importante, car elle permet de faire des comparaisons, recherches et tris de séquences Unicode. Pour chacune des deux notions d’équivalence, Unicode définit deux formes, l’une composée, et l’autre décomposée, conduisant à quatre formes normales, abrégées NFC, NFD, NFKC et NFKD, qui seront détaillées ci-dessous et qui sont aussi décrites dans Normalisation Unicode.

Les deux notions d'équivalence

L’équivalence canonique est une forme d’équivalence qui préserve visuellement et fonctionnellement les caractères équivalents. Ils ont un codage binaire différents mais représentent un texte identique.

L’équivalence de compatibilité correspond plutôt à une équivalence de texte ordinaire, et peut réunir ensemble des formes distinctes sémantiquement.

Pour aller plus loin

Wikipedia:Équivalences unicode
UAX 15 Unicode Normalization Forms

division des mots et coupure de ligne

Cette section est vide, pas assez détaillée ou incomplète. Votre aide est la bienvenue !

régionalisation des nombres et autres considérations

Cette section est vide, pas assez détaillée ou incomplète. Votre aide est la bienvenue !

spécificités des combinaisons et ré-ordonnancement des langues sudasiatiques

Cette section est vide, pas assez détaillée ou incomplète. Votre aide est la bienvenue !

problématique de sécurité liés à la ressemblance de caractères

Cette section est vide, pas assez détaillée ou incomplète. Votre aide est la bienvenue !

Références

http://www.unicode.org/reports/

↑ Voir Knuth, Sorting and Searching, Addison-Wesley, 1973.
↑ Peter Burke, 2000, p. 184.

[1] Voir Knuth, Sorting and Searching, Addison-Wesley, 1973.

[Burke-2] Peter Burke, 2000, p. 184.

[1]

[2]