SELFHTML/Navigationshilfen Internationalisierung | |
Das Unicode-System |
|
Unicode ist ein System, in dem die Zeichen oder Elemente aller bekannten Schriftkulturen und Zeichensysteme festgehalten werden. Durch dieses System wird es möglich, einem Computer "weltweit" zu sagen, welches Zeichen man dargestellt bekommen will. Voraussetzung ist natürlich, dass der Computer bzw. das ausgeführte Programm das Unicode-System unterstützt.
Unicode strebt die möglichst vollständige Erfassung aller bekannten Zeichen aus gegenwärtigen und vergangenen Schriftkulturen an. Die Zeichen werden nach Klassen katalogisiert und erhalten eine Zeichennummer (Code). Alle nur erdenklichen Zeichen und Zeichensorten werden erfasst. Auch für Steuerzeichen wie Silbentrennzeichen, erzwungene Leerzeichen oder Tabulator-Zeichen gibt es Nummern. Die Zeichen mathematischer Formeln fehlen ebensowenig wie die Silben- oder Wortzeichen fernöstlicher Schriftkulturen. Auch Einzelteile von Zeichen, so genannte diakritische Zeichen wie etwa die Doppelpunkte über den deutschen Umlauten, haben einen eigenen Code. Zeichen lassen sich auch dynamisch kombinieren - so gibt es zwar natürlich auch ein deutsches "ä", aber der gleiche Buchstabe lässt sich auch aus "a" und dem Element für Doppelpunkt über dem Zeichen erzeugen.
Neben der bloßen Adressierung eines Zeichens oder Elements ist im Unicode-System für jedes Zeichen auch ein Set von Eigenschaften definiert. Zur Eigenschaft eines Zeichens gehört z.B. die Schreibrichtung (bei arabischen Zeichen etwa ist die Schreibrichtung von rechts nach links). Insgesamt stecken hinter dem Unicode-System unzählige Forschungsergebnisse der weltweiten Sprachwissenschaft.
Das Unicode-Konsortium, das 1991 gegründet wurde und aus Linguisten und anderen Fachleuten besteht, ermittelt die aufzunehmenden Zeichen. Die vergebenen Zeichencodes haben verbindlichen Charakter. Seit Version 2.0 ist das Unicode-System auch mit der internationalen Norm ISO/IEC 10646 synchronisiert. Das ist insofern wichtig, als HTML seit Version 4.0 und auch XML ab Version 1.0 auf der Norm ISO/IEC 10646 aufsetzen. Wenn Sie also wissen wollen, wie man ein bestimmtes Zeichen in HTML oder XML notieren soll, müssen Sie in den Unicode-Zeichentabellen nachsehen, welche Zeichennummer das gewünschte Zeichen hat. Anschließend können Sie das gewünschte Zeichen durch eine numerische Notation wie z.B. ⚏
(dezimale Schreibweise) oder ⚏
(hexadezimale Schreibweise mit x
) im Quelltext der HTML- oder XML-Datei notieren.
Die Zeichennummern der von Unicode erfassten Zeichen wurden zuerst ausschließlich durch eine zwei Byte lange Zahl ausgedrückt. Auf diese Weise lassen sich bis zu 65536 verschiedene Zeichen in dem System unterbringen (2 Byte = 16 Bit = 216 Kombinationsmöglichkeiten). In der Unicode-Version 3.0 vom September 1999 wurden bereits 49.194 Zeichen aus aller Welt aufgelistet. Die Version 3.1 vom März 2001 durchbrach mit 94.140 Zeichen die Zwei-Byte-Grenze. Die Version 4.0 vom April 2003 umfasst 96.382 Zeichen, die Unterversion 4.1.0 fügt noch einmal 1.273 Zeichen hinzu. Das Zwei-Byte-Schema, im Unicode-System als Basic Multilingual Plane (BMP) bezeichnet, wird deshalb von einem Vier-Byte-Schema abgelöst, wodurch sich die beruhigende Anzahl von 4.294.967.296 Zeichen (232 Kombinationsmöglichkeiten für Bits) adressieren lässt.
Informationen zum Unicode-Konsortium finden Sie im Web auf der Homepage des Unicode-Konsortiums.
Das große Problem mit Unicode ist eigentlich nur, wie all die vielen Zeichen an einem Computer dargestellt werden sollen. Denn Unicode definiert nur Zeichennummern und Eigenschaften von Zeichen, aber es enthält ebenso wenig wie Codetabellen herkömmliche Zeichenkodierungen Angaben darüber, wie das Zeichen darzustellen ist. Dazu sind am Computer Schnittstellen wie Schriftarten erforderlich. Die klassischen Computerschriftarten sind dazu jedoch nicht geeignet, da sie sich weitgehend an bestimmten Kodierungen mit eingeschränktem Zeichenvorrat orientieren. Neue, Unicode-orientierte Schriftarten verbreiten sich allmählich. In Verbindung mit modernen Betriebssystemen und Anwendungen unterstützen solche Schriftarten zumindest die zwei-byte-breite Adressierung, also den BMP-Anteil des Unicode-Systems.
Bei neuen Unicode-Versionen wird das Buch The Unicode Standard, herausgegeben vom Unicode-Konsortium, neu aufgelegt. Im internationalen Buchhandel ist dieses Buch erhältlich. Darin sind alle Zeichen, Zeichennummern, Zeichenklassen usw. genau aufgeschlüsselt und dargestellt. Dieses Buch ist das verbindliche Normwerk. Auf den Web-Seiten des Unicode-Konsortiums finden sich zum schnellen Nachschlagen PDF-Dateien mit den einzelnen Codetabellen. Die Verweise in der Tabelle weiter unten führen direkt zu den entsprechenden PDF-Dateien. Um diese Dateien betrachten zu können, benötigen Sie ein gesondertes PDF-Leseprogramm wie beispielsweise den Adobe Reader.
Das Unicode-System ist in Zahlenbereiche aufgeteilt. Die Zahlen selbst werden in der Form U+XXXX notiert. Das U steht für Unicode, und die X für je eine hexadezimale Ziffer. Zeichennummern sind in diesen Tabellen also hexadezimal dargestellt. Falls Sie für die Notation eines oder mehrerer Zeichen aus dem Unicode-Bereich in HTML oder XML eine dezimale Darstellung verwenden wollen, können Sie den Dezimal/Hexadezimal-Umrechner benutzen.
Die einzelnen Zeichen im Unicode-System sind nicht wahllos angeordnet. Das gesamte System ist in Zeichenbereiche (engl. blocks, Blöcke) aufgeteilt. Die Zeichenbereiche spiegeln jeweils eine bestimmte Schriftkultur oder ein Set von Sonderzeichen wider.
Im folgenden werden die einzelnen Unicode-Zeichenbereiche aufgelistet. Bei jedem Zeichenbereich finden Sie einen Verweis. Der Verweis führt jeweils zu einer PDF-Datei auf der Homepage des Unicode-Konsortiums. Darauf finden Sie zu dem betreffenden Zeichenbereich Hinweise sowie eine grafische Tabelle mit Abbildungen der einzelnen Zeichen des Bereichs und der zugehörigen Unicode-Zeichennummern (hexadezimal).
Name des Zeichenbereichs | Zeichenbereich (hexadezimale Angabe) |
Link zur Codetabelle |
---|---|---|
Linear B Syllabary | U+10000 bis U+1007F | Codetabelle mit grafischer Zeichendarstellung |
Linear B Ideograms | U+10080 bis U+100FF | Codetabelle mit grafischer Zeichendarstellung |
Aegean Numbers | U+10100 bis U+1013F | Codetabelle mit grafischer Zeichendarstellung |
Ancient Greek Numbers | U+10140 bis U+1018F | Codetabelle mit grafischer Zeichendarstellung |
Old Italic | U+10300 bis U+1032F | Codetabelle mit grafischer Zeichendarstellung |
Gothic | U+10330 bis U+1034F | Codetabelle mit grafischer Zeichendarstellung |
Ugaritic | U+10380 bis U+1039F | Codetabelle mit grafischer Zeichendarstellung |
Old Persian | U+103A0 bis U+103DF | Codetabelle mit grafischer Zeichendarstellung |
Deseret | U+10400 bis U+1044F | Codetabelle mit grafischer Zeichendarstellung |
Shavian | U+10450 bis U+1047F | Codetabelle mit grafischer Zeichendarstellung |
Osmanya | U+10480 bis U+104AF | Codetabelle mit grafischer Zeichendarstellung |
Cypriot Syllabary | U+10800 bis U+1083F | Codetabelle mit grafischer Zeichendarstellung |
Kharoshthi | U+10A00 bis U+10A5F | Codetabelle mit grafischer Zeichendarstellung |
Byzantine Musical Symbols | U+1D000 bis U+1D0FF | Codetabelle mit grafischer Zeichendarstellung |
Musical Symbols | U+1D100 bis U+1D1FF | Codetabelle mit grafischer Zeichendarstellung |
Ancient Greek Musical Notation | U+1D200 bis U+1D24F | Codetabelle mit grafischer Zeichendarstellung |
Tai Xuan Jing Symbols | U+1D300 bis U+1D35F | Codetabelle mit grafischer Zeichendarstellung |
Mathematical Alphanumeric Symbols | U+1D400 bis U+1D7FF | Codetabelle mit grafischer Zeichendarstellung |
CJK Unified Ideographs Extension B | U+20000 bis U+2A6D6 | Codetabelle mit grafischer Zeichendarstellung |
CJK Compatibility Ideographs Supplement | U+2F800 bis U+2FA1F | Codetabelle mit grafischer Zeichendarstellung |
Tags | U+E0000 bis U+E007F | Codetabelle mit grafischer Zeichendarstellung |
Variation Selectors Supplement | U+E0100 bis U+E01EF | Codetabelle mit grafischer Zeichendarstellung |
Supplementary Private Use Area-A | U+F0000 bis U+E01EF | |
Supplementary Private Use Area-B | U+100000 bis U+10FFFF |
Downloadbare Schriftarten | |
Zeichenkodierungen (ISO-8859-Familie und andere) | |
SELFHTML/Navigationshilfen Internationalisierung |
© 2005 Impressum