Unicodeの矛盾

Unicodeの漢字20902字は、日本のJIS規格、中国のGB規格、台湾のCNS規格、韓国のKS規格を一度ごちゃまぜにしてまた並べ直し、よく似た漢字には同じコードを振っている、ということになっています。 以下に、日本・中国・台湾の規格から収録された漢字について「よく似た漢字」にどのようにコードが振られているか、いくつか例を示します。 これらの例における矛盾(たとえば最初の例では「」と「」に別のコードを振っていながら、「」と「」には同じコードを振っている)は、Unicodeにおける「よく似た漢字」を統合する規則が、いかに曖昧なものであるかを表しています。 各漢字はJIS X 0208-1990JIS X 0212-1990GB 2312-80GB 7589-87GB 7590-87CNS 11643-1992「第一字面」〜「第三字面」、通用漢字標準交換碼、ISO 10646-1:1993 UCS-2/UTF-8との対応表になっており、「????」はUnicodeに収録されていない(少なくともUnicodeからは参照されていない)ことを示します。

Unicode 6808 685F 6B8B 6D45 8DF5
日本
中国
台湾

Unicode 6037 6038 8FF0
日本
中国
台湾

Unicode 595C 7306 623B 623E ???? 7A81 81ED
日本
中国
台湾

Unicode 598D 59F8 5C8D ???? 6C67 ???? 7814 784F 8688 8C5C 8C63 8DBC ????
日本
中国
台湾