Unicode encoding forms

Unicode gibt jedem (abstrakten) Zeichen einen kodierten Wert
Dieser Wert kann jedoch zum Speichern auf unterschiedliche Weise ausgedrückt werden:
- UTF-32Jedes Zeichen ist mit einem Wert von gleicher Länge (32bit) gespeichert
- UTF-16Zeichen der BMP werden mit einem 16 bit Wert gespeichert, Zeichen anderer Ebenen werden über einen spezifischen Bereich der BMP mit 2 16 bit Kodierungseinheiten (sog. Surrogaten) dargestellt
- UTF-8Zeichen im ASCII Bereich werden mit einem 7bit Wert gespeichert, alle anderen Zeichen erfordern Kodierungseinheiten von 2-6 Zeichen Länge. Im Deutschen gebräuchliche Sonderzeichen werden mit 2 Kodierungseinheiten, chinesische Zeichen der BMP mit 3, der SIP mit 6 Kodierungseinheiten dargestellt.

Anmerkungen:

Um genau zu sein, gibt es für UTF-32 und UTF-16 noch jeweils zwei Untervarianten, je nachdem ob der höhere Wert oder der niedrigere Wert der 16 bit zuerst gespeichert wird.
UTF-8 ist bei weitem am häufigstem in Gebrauch, da es nur eine Variante gibt und vor allem da in englischen Texten i.d. Regel keine Änderung notwendig ist beim Übergang von ASCII zu UTF-8.
In XML ist UTF-8 (oder UTF-16) der voreingestellte Wert, alle anderen Werte müssen eigens angekündigt werden.

Einführung in Unicode, XML, TEI