Unicodeの矛盾
Unicodeの漢字20902字は、日本のJIS規格、中国のGB規格、台湾のCNS規格、韓国のKS規格を一度ごちゃまぜにしてまた並べ直し、よく似た漢字には同じコードを振っている、ということになっています。
以下に、日本・中国・台湾の規格から収録された漢字について「よく似た漢字」にどのようにコードが振られているか、いくつか例を示します。
これらの例における矛盾(たとえば最初の例では「」と「」に別のコードを振っていながら、「」と「」には同じコードを振っている)は、Unicodeにおける「よく似た漢字」を統合する規則が、いかに曖昧なものであるかを表しています。
各漢字はJIS X 0208-1990、JIS X 0212-1990、GB 2312-80、GB 7589-87、GB 7590-87、CNS 11643-1992「第一字面」〜「第三字面」、通用漢字標準交換碼、ISO 10646-1:1993 UCS-2/UTF-8との対応表になっており、「????」はUnicodeに収録されていない(少なくともUnicodeからは参照されていない)ことを示します。
Unicode |
6808 |
685F |
6B8B |
6D45 |
8DF5 |
日本 |
|
|
|
|
|
中国 |
|
|
|
|
|
台湾 |
|
|
|
|
|
Unicode |
6037 |
6038 |
8FF0 |
日本 |
|
|
|
中国 |
|
|
|
台湾 |
|
|
|
Unicode |
595C |
7306 |
623B |
623E |
???? |
7A81 |
81ED |
日本 |
|
|
|
|
|
|
|
中国 |
|
|
|
|
|
|
|
台湾 |
|
|
|
|
|
|
|
Unicode |
598D |
59F8 |
5C8D |
???? |
6C67 |
???? |
7814 |
784F |
8688 |
8C5C |
8C63 |
8DBC |
???? |
日本 |
|
|
|
|
|
|
|
|
|
|
|
|
|
中国 |
|
|
|
|
|
|
|
|
|
|
|
|
|
台湾 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|