台湾の「漢字表」

常用漢字表

1945年に教育部から公布された3451字の漢字表で、台湾以外では戦前に公布されていたものです。長かった日本支配を脱し、「国語教育」を実施する足掛かりとなりました。

国民常用字表

1975年に教育部から公布された2408字の漢字表で、日常よく使われる漢字を収めています。それまで康煕字典等を規範としていた字体が「標準字体」に改められ、異体字が大幅に整理されると同時に、各漢字に関して部首と画数が定められました。

中文資訊交換碼

1980年に行政院文化建設委員会が発表した5139字の文字表で、「CCCII」と呼ばれています。 1981年・1982年・1985年・1987年に追加・改正が行なわれ、現在は42754字となっています。 16進数6桁のコードが用いられており、213021～216330に「常用国字標準字体表」4808字(ただし間違いが散見されます)、216421～262543にそれ以外の漢字37615字、212B21～212F78に非漢字331字(部首214字を含む)が収められています。なお213021～267E7Eに対応して、273021～2C7E7Eに中国の簡化字、2D3021以降に異体字が収められることになっていますが、これらの表は現在複数の(矛盾した)改訂がおこなわれており、字数は確定していません。

常用国字標準字体表

1982年に教育部から公布された4808字の漢字表で、「国民常用字表」の改訂版です。 1979年から3年間の試用の後、正式に公布されました。一覧表はここにあります。

次常用国字標準字体表

1982年に教育部から公布された6341字(単位用漢字9字を含む)の漢字表です。「罕用字表」4399字が付録として付いています。「常用国字標準字体表」以外でしばしば使われる漢字を収めていますが、「常用国字標準字体表」にある「

」がなぜか含まれています。また、どういうわけか「

」が「口部10画」と「殳部9画」の2箇所に、「

」が「文部14画」と「虫部12画」の2箇所に収められています。一覧表はここにあります。

異体国字字表

1984年以降、教育部が改訂を続けている漢字表です。「常用国字標準字体表」「次常用国字標準字体表」の異体字を収録しており、後には「罕用字体表」の異体字も収録されるようになりました。

BIG5

1984年に資訊工業策進会が発表した13461字の文字表です。 16進数4桁のコードが用いられており、A440～C67Eに「第一水準」漢字5401字、C940～F9D5に「第二水準」漢字7652字、A140～A3BFに非漢字408字(単位用漢字9字を含む)が収められています。「第一水準」漢字は「常用国字標準字体表」4808字を全て含んでおり、一部間違いはあるものの概ね総画数順に並んでいます。「第二水準」漢字は「次常用国字標準字体表」6341字中「第一水準」に含まれない漢字を全て含んでおり、やはり総画数順に並んでいますが、どういうわけか「

」がA461とC94Aに、「

」がDCD1とDDFCに、それぞれダブって含まれています。

罕用字体表

1986年に教育部から公布された18480字の漢字表で、「次常用国字標準字体表」の付録「罕用字表」の改訂版です。 1983年から3年間の試用の後、正式に公布されました。「常用国字標準字体表」「次常用国字標準字体表」以外でまれに使われる漢字を収めています。

CNS 11643-1986

1986年に経済部中央標準局が公布した13735字の文字表です。「第一字面」と「第二字面」からなり、いずれも16進数4桁のコードが用いられています。「第一字面」では、4421～7D4Bに漢字5401字、2121～4241に非漢字684字(部首213字と単位用漢字9字を含む)が収められており、BIG5の「第一水準」漢字と非漢字を全て含んでいます。「第二字面」では、2121～7244に漢字7650字が収められており、BIG5の「第二水準」漢字を全て(ただしBIG5でダブっていた漢字を除く)含んでいます。漢字はそれぞれの字面で総画数順に並んでいますが、BIG5の順序とは多くの場所で入れ替わっています。

通用漢字標準交換碼

行政院主計処電子処理資料中心が1988年に発表した6319字の漢字表で、俗に「第十四字面」と呼ばれています。 16進数4桁のコードが用いられており、 2121～6246には「第一部

」漢字6148字、6247～6435には「第二部

」漢字171字が収められています。いずれの「部

」もそれぞれ総画数順に並んでいます。「第十四字面」と呼ばれるのは、この漢字表がCNS 11643-1986のユーザ定義領域である「第十四字面」に付加されることを想定していたからです。

CNS 11643-1992

1992年に経済部中央標準局が公布した48711字の文字表で、CNS 11643-1986の改訂版です。「第一字面」～「第七字面」からなり、いずれも16進数4桁のコードが用いられています。「第一字面」および「第二字面」は、CNS 11643-1986と同じものです。「第三字面」は「第十四字面」の「第一部

」と同じものです。「第四字面」では2121～6E5Cに漢字7298字が総画数順に収められており、「第十四字面」の「第二部

」漢字171字を全て含みます。「第五字面」では2121～7C51に漢字8603字が総画数順に収められています。「第六字面」では2121～647Aに14画以下の漢字6388字が、「第七字面」では2121～6655に15画以上の漢字6539字がそれぞれ収められており、2字面合わせて総画数順になっています。「第一字面」～「第五字面」は「罕用字体表」18480字を全て含んでおり、「第六字面」と「第七字面」は基本的に「異体国字字表」の漢字を収録しています。「第六字面」に同一の文字が含まれているというバグがありましたが、1995年までにバグフィックスされました。

台湾の「漢字コード」

ISO-2022-CNとISO-2022-CN-EXT

文字を表すバイト列中に、16進数で「0E」というバイトが来たらそれ以降は漢字、「0F」というバイトが来たらそれ以降はASCIIとみなす方法です。「漢字」にCNS 11643-1992第一字面を使うことをはっきりさせるために、「1B 24 29 47」を「0E」以前に入れておく必要があります。例えば「10月18日」という文字列は「1B 24 29 47 31 30 0E 45 4C 0F 31 38 0E 45 4A 0F」となります。「1B 4E」の直後の2バイトはCNS 11643-1992第二字面の文字だとみなされますが、そうであることをはっきりさせるために「1B 24 2A 48」を「1B 4E」以前に入れておく必要があります。「1B 4F」の直後の2バイトは第三字面～第七字面の文字だとみなされますが、第三字面なら「1B 24 2B 49」、第四字面なら「1B 24 2B 4A」、第五字面なら「1B 24 2B 4B」、第六字面なら「1B 24 2B 4C」、第七字面なら「1B 24 2B 4D」を「1B 4F」以前に入れておく必要があります。この方法だと例えば「

島屋」という文字列は「1B 24 29 47 1B 24 2B 4A 1B 4F 36 2D 0E 55 35 50 70 0F」となります。

EUC-TW

CNS 11643-1992第一字面のコードに16進数で8080を加えて、2バイトの文字コードとする方法です。この方法だと「10月18日」という文字列は「31 30 C5 CC 31 38 C5 CA」となります。第二字面～第七字面の文字も同様に16進数で8080を加えますが、第二字面なら「8E A2」、第三字面なら「8E A3」、第四字面なら「8E A4」、第五字面なら「8E A5」、第六字面なら「8E A6」、第七字面なら「8E A7」を直前に付加して4バイトの文字コードとします。この方法だと例えば「

島屋」という文字列は「8E A4 B6 AD D5 B5 D0 F0」となります。

BIG5

BIG5の16進数4桁のコードを、そのまま2バイトの文字コードとする方法です。この方法だと「10月18日」という文字列は「31 30 A4 EB 31 38 A4 E9」となります。

CCCII

中文資訊交換碼の16進数6桁のコードを、そのまま3バイトの文字コードとする方法です。ただしASCIIの文字は「21 23」の後に1バイトを付加した3バイトで表されます。この方法だと「10月18日」という文字列は「21 23 31 21 23 30 21 43 5B 21 23 31 21 23 38 21 42 73」となります。