台湾の「漢字表」
常用漢字表
1945年に教育部から公布された3451字の漢字表で、台湾以外では戦前に公布されていたものです。
長かった日本支配を脱し、「国語教育」を実施する足掛かりとなりました。
国民常用字表
1975年に教育部から公布された2408字の漢字表で、日常よく使われる漢字を収めています。
それまで康煕字典等を規範としていた字体が「標準字体」に改められ、異体字が大幅に整理されると同時に、各漢字に関して部首と画数が定められました。
中文資訊交換碼
1980年に行政院文化建設委員会が発表した5139字の文字表で、「CCCII」と呼ばれています。
1981年・1982年・1985年・1987年に追加・改正が行なわれ、現在は42754字となっています。
16進数6桁のコードが用いられており、213021〜216330に「常用国字標準字体表」4808字(ただし間違いが散見されます)、216421〜262543にそれ以外の漢字37615字、212B21〜212F78に非漢字331字(部首214字を含む)が収められています。
なお213021〜267E7Eに対応して、273021〜2C7E7Eに中国の簡化字、2D3021以降に異体字が収められることになっていますが、これらの表は現在複数の(矛盾した)改訂がおこなわれており、字数は確定していません。
常用国字標準字体表
1982年に教育部から公布された4808字の漢字表で、「国民常用字表」の改訂版です。
1979年から3年間の試用の後、正式に公布されました。
一覧表はここにあります。
次常用国字標準字体表
1982年に教育部から公布された6341字(単位用漢字9字を含む)の漢字表です。
「罕用字表」4399字が付録として付いています。
「常用国字標準字体表」以外でしばしば使われる漢字を収めていますが、「常用国字標準字体表」にある「」がなぜか含まれています。
また、どういうわけか「」が「口部10画」と「殳部9画」の2箇所に、「」が「文部14画」と「虫部12画」の2箇所に収められています。
一覧表はここにあります。
異体国字字表
1984年以降、教育部が改訂を続けている漢字表です。
「常用国字標準字体表」「次常用国字標準字体表」の異体字を収録しており、後には「罕用字体表」の異体字も収録されるようになりました。
BIG5
1984年に資訊工業策進会が発表した13461字の文字表です。
16進数4桁のコードが用いられており、A440〜C67Eに「第一水準」漢字5401字、C940〜F9D5に「第二水準」漢字7652字、A140〜A3BFに非漢字408字(単位用漢字9字を含む)が収められています。
「第一水準」漢字は「常用国字標準字体表」4808字を全て含んでおり、一部間違いはあるものの概ね総画数順に並んでいます。
「第二水準」漢字は「次常用国字標準字体表」6341字中「第一水準」に含まれない漢字を全て含んでおり、やはり総画数順に並んでいますが、どういうわけか「」がA461とC94Aに、「」がDCD1とDDFCに、それぞれダブって含まれています。
罕用字体表
1986年に教育部から公布された18480字の漢字表で、「次常用国字標準字体表」の付録「罕用字表」の改訂版です。
1983年から3年間の試用の後、正式に公布されました。
「常用国字標準字体表」「次常用国字標準字体表」以外でまれに使われる漢字を収めています。
CNS 11643-1986
1986年に経済部中央標準局が公布した13735字の文字表です。
「第一字面」と「第二字面」からなり、いずれも16進数4桁のコードが用いられています。
「第一字面」では、4421〜7D4Bに漢字5401字、2121〜4241に非漢字684字(部首213字と単位用漢字9字を含む)が収められており、BIG5の「第一水準」漢字と非漢字を全て含んでいます。
「第二字面」では、2121〜7244に漢字7650字が収められており、BIG5の「第二水準」漢字を全て(ただしBIG5でダブっていた漢字を除く)含んでいます。
漢字はそれぞれの字面で総画数順に並んでいますが、BIG5の順序とは多くの場所で入れ替わっています。
通用漢字標準交換碼
行政院主計処電子処理資料中心が1988年に発表した6319字の漢字表で、俗に「第十四字面」と呼ばれています。
16進数4桁のコードが用いられており、
2121〜6246には「第一部」漢字6148字、6247〜6435には「第二部」漢字171字が収められています。
いずれの「部」もそれぞれ総画数順に並んでいます。
「第十四字面」と呼ばれるのは、この漢字表がCNS 11643-1986のユーザ定義領域である「第十四字面」に付加されることを想定していたからです。
CNS 11643-1992
1992年に経済部中央標準局が公布した48711字の文字表で、CNS 11643-1986の改訂版です。
「第一字面」〜「第七字面」からなり、いずれも16進数4桁のコードが用いられています。
「第一字面」および「第二字面」は、CNS 11643-1986と同じものです。
「第三字面」は「第十四字面」の「第一部」と同じものです。
「第四字面」では2121〜6E5Cに漢字7298字が総画数順に収められており、「第十四字面」の「第二部」漢字171字を全て含みます。
「第五字面」では2121〜7C51に漢字8603字が総画数順に収められています。
「第六字面」では2121〜647Aに14画以下の漢字6388字が、「第七字面」では2121〜6655に15画以上の漢字6539字がそれぞれ収められており、2字面合わせて総画数順になっています。
「第一字面」〜「第五字面」は「罕用字体表」18480字を全て含んでおり、
「第六字面」と「第七字面」は基本的に「異体国字字表」の漢字を収録しています。
「第六字面」に同一の文字が含まれているというバグがありましたが、1995年までにバグフィックスされました。
台湾の「漢字コード」
文字を表すバイト列中に、16進数で「0E」というバイトが来たらそれ以降は漢字、「0F」というバイトが来たらそれ以降はASCIIとみなす方法です。
「漢字」にCNS 11643-1992第一字面を使うことをはっきりさせるために、「1B 24 29 47」を「0E」以前に入れておく必要があります。
例えば「10月18日」という文字列は「1B 24 29 47 31 30 0E 45 4C 0F 31 38 0E 45 4A 0F」となります。
「1B 4E」の直後の2バイトはCNS 11643-1992第二字面の文字だとみなされますが、
そうであることをはっきりさせるために「1B 24 2A 48」を「1B 4E」以前に入れておく必要があります。
「1B 4F」の直後の2バイトは第三字面〜第七字面の文字だとみなされますが、第三字面なら「1B 24 2B 49」、第四字面なら「1B 24 2B 4A」、第五字面なら「1B 24 2B 4B」、第六字面なら「1B 24 2B 4C」、第七字面なら「1B 24 2B 4D」を「1B 4F」以前に入れておく必要があります。
この方法だと例えば「島屋」という文字列は「1B 24 29 47 1B 24 2B 4A 1B 4F 36 2D 0E 55 35 50 70 0F」となります。
EUC-TW
CNS 11643-1992第一字面のコードに16進数で8080を加えて、2バイトの文字コードとする方法です。
この方法だと「10月18日」という文字列は「31 30 C5 CC 31 38 C5 CA」となります。
第二字面〜第七字面の文字も同様に16進数で8080を加えますが、
第二字面なら「8E A2」、第三字面なら「8E A3」、第四字面なら「8E A4」、第五字面なら「8E A5」、第六字面なら「8E A6」、第七字面なら「8E A7」を直前に付加して4バイトの文字コードとします。
この方法だと例えば「島屋」という文字列は「8E A4 B6 AD D5 B5 D0 F0」となります。
BIG5
BIG5の16進数4桁のコードを、そのまま2バイトの文字コードとする方法です。
この方法だと「10月18日」という文字列は「31 30 A4 EB 31 38 A4 E9」となります。
CCCII
中文資訊交換碼の16進数6桁のコードを、そのまま3バイトの文字コードとする方法です。
ただしASCIIの文字は「21 23」の後に1バイトを付加した3バイトで表されます。
この方法だと「10月18日」という文字列は「21 23 31 21 23 30 21 43 5B 21 23 31 21 23 38 21 42 73」となります。