À la découverte d'Unicode/Saisie des caractères

Exemples de textes

Glossaire

À la découverte d'Unicode

Sommaire

Le contexte

Héritage de la télégraphie à Unicode ^
Unicode : institutions et versions
(renommer le chapitre: et standard) ⪾

Les textes Unicode

La notion de caractère 𝓌
Présentation du répertoire ⺇
Propriétés de caractère ϐ
Codage (UTF-8, UTF-16 et UCS-2)
Applications ✉
Fonctionnalités usuelles et algorithmes ض

Pour les développeurs

Annexes

Version imprimable

[ Modifier le sommaire ]

Exemples de textes

Glossaire

L'objet de ce livre n'est pas d'indiquer comment saisir des caractères sur tel ou tel système, mais bien de présenter Unicode.

Toutefois, un livre intitulé Unicode en pratique serait sans doute incomplet s'il n'offrait quelques éléments d'information sur la saisie de caractères Unicode.

Avant toute chose, il est utile de préciser que tout utilisateur d'ordinateur saisit déjà des caractères Unicode chaque fois qu'il tape sur son clavier : par exemple l'utilisateur francophone saisit des caractères Unicode latin tandis que l'utilisateur grec saisit des caractères grecs.

Les questions qui se posent sont donc d'une part de savoir comment configurer son clavier pour des langues étrangères, et d'autres part comment saisir les caractères biens pratiques qui ne sont pas disposés sur le clavier. Par exemple, il n'est pas toujours pratique de saisir un accent grave sur un A majuscule.

Configuration du clavier

Pour utiliser les caractères des différents alphabets, une configuration du clavier peut être suffisante. La configuration du clavier est propre à chaque système, notamment Windows, ou X-Window sous Unix et MacOSX.

Méthode d'entrée

Une méthode de saisie (en anglais, input method en général ou input method editor (IME) chez Microsoft) est un programme ou un composant d'un système d'exploitation qui permet aux utilisateurs d'un ordinateur de saisir des caractères complexes et des symboles (tels que les caractères chinois, coréen, japonais ou d'origine Indiennes (Sanskrit, Tamoul, Tibétain...), à l'aide d'un clavier occidental classique. Le terme input method environment est également employé en anglais.

Le terme Input Method est généralement utilisé (Mac OS, BeOS, X Window System, terminal texte Unix…).

Microsoft utilise d'autres noms : Le terme IME est plutôt employé dans le contexte de Microsoft Windows. et FEP pour MS-DOS.

XIM est une infrastructure pour les méthodes d'entrée sous X Window System.

Utilisation sous Linux et Unix

Sous Mac OS X et dans Mac OS 8.5 et suivants : il faut choisir la méthode de saisie Unicode Hex Input. La combinaison se fait en pressant la touche Option et en saisissant les 4 chiffres hexadécimaux du code point Unicode^[1].
Sous l'environnement logiciel GNOME, maintenir la touche U tout en tapant le nombre Unicode. Les anciennes versions nécessitent de maintenir Ctrl et Maj en plus de la touche U.
Accessoirement, et pour un public averti, dans l'éditeur de texte Vim, la combinaison Ctrl-V u, puis nombre hexadécimal, permet de saisir un caractère Unicode.

Logiciel de consultation

Certains logiciels sont dédiés à la consultation des caractères Unicode. Ils ne permettent pas de saisir un flot de texte comme cela se fait avec un clavier où l'on peut saisir plusieurs caractères par seconde, mais ils offrent d'autres possibilités en ne se limitant pas à un sous-ensemble restreint des caractères d'Unicode.

C'est notamment le cas du logiciel graphique gucharmap et du logiciel en ligne de commande unicode.

gucharmap

gucharmap est un logiciel qui permet d'afficher les tables de caractères Unicode, de les rechercher, de les voir avec différents niveaux de zoom, et de les copier.

Un onglet dédié permet également de détailler le nom du point de code, son codage, le caractère, la catégorie et le sens d'écriture.

unicode

Unicode est un logiciel qui permet d'obtenir à partir de son numéro ou d'une chaîne de caractère elle-même, toutes les principales informations relatives à ce caractère, comme illustré dans l'exemple ci-après :

Invocation du logiciel pour le point de code U+1234:

unicode U+1234

Réponse du logiciel détaillant le nom du point de code, son codage, le caractère, la catégorie et le sens d'écriture:

U+1234 ETHIOPIC SYLLABLE SEE
UTF-8: e1 88 b4  UTF-16BE: 1234  Decimal: &#4660;
ሴ
Category: Lo (Letter, Other)
Bidi: L (Left-to-Right)

Autre exemple:

unicode ≠
U+2260 NOT EQUAL TO
UTF-8: e2 89 a0  UTF-16BE: 2260  Decimal: &#8800;
≠
Category: Sm (Symbol, Math)
Bidi: ON (Other Neutrals)
Character is mirrored
Decomposition: 003D 0338

Saisie de caractères par les développeurs

Les informaticiens disposent d'un autre moyen pour désigner des caractères lorsqu'ils écrivent un logiciel.

Ce moyen est dépendant du langage informatique utilisé. Mais le langage HTML comme la plupart des langages de programmation moderne permettent de saisir des caractères en les désignant par leur numéro décimal et/ou hexadécimal.

Exemples avec le caractère € (U+0020AC) :

En HTML :
- Par le numéro de caractère en hexadécimal : €
- Par le numéro de caractère en décimal : €
- Par le nom du caractère : €

En C, C++ :
- Par le numéro de caractère en hexadécimal : L"\u20AC"
- Par le numéro de caractère en décimal : (wchar_t)8364

En C sharp, Java :
- Par le numéro de caractère en hexadécimal : "\u20AC"
- Par le numéro de caractère en décimal : (char)8364

Notes de bas de page

↑ anglais Taper des caractères spéciaux et accentués

[1] s Taper des caractères spéciaux et accentués

[1]