目次へ

IRIZ漢字ベース

クリスティアン・ウィッテアン/ウルス・アップ


  1. なぜ漢字ベースか?
  2. 漢字ベースとは何か?
  3. 漢字ベースはどのように使うのか
  4. そのコード化の方法に関する技術情報

梗概

漢字ベースは禅知識ベース計画の一環として、ウィッテアンによって開発された。これは現在の国別コード( ユニコードも含む) における欠字を、標準化され、システムに依存しない代替記号によって補足する新しい方法である。

 これは台湾政府のCNS コード( これまでのところ48000 字) に基づき、曖昧性がなく、移植可能なコードを割り当てることによって、普通のパソコン上での言語処理およびデータベースに使用するために作成された。このアプローチによって、日本語、台湾、中国本土、韓国のいずれのウィンドウズであれ、自分の使い慣れた環境をそのまま使うことができる。マッキントッシュ( 後には、ユニックスも) 環境は、サポートされることになっており、まもなくインターネット上でも漢字ベースにアクセス可能になるだろう。

現在の実現化では、自分のシステムで使えない文字を漢字ベースで検索して、SGML様式の曖昧性のない移植可能なコードにリンクされた印刷可能なグラフィックイメージとして、文書にペーストされる。漢字ベースの文字を含む文書は、たとえばウィンドウズMSワードや、マッキントッシュワード、あるいはいくつかの環境上で動くWerner LembergのCJK TeX 方式を使って普通のプリンターで印刷できる。


なぜ漢字ベースか?

 中国語表記の構造と、今日、コンピュータ上での漢字処理に使用できるツールのために、入力できない漢字がいつもある。それらは、古いテキストのうちの1 〜5 %以下なのだが、深刻な問題を引き起こす。

 今までは、各個人や研究機関が、それらの漢字のために、独自のコードや代替記号を作っており、その結果、互換性がなく、一般に受容されているいかなる標準にも合致しないデータを作りだしてしまっている。

 使用しているコードセットにない各文字に、その場限りの個人的なコード付けをするより、むしろできるだけ標準的な表示を使用することが望ましい。そうすれば、データは交換が可能になり、データベースの維持も可能になる。

 我々は、すべての使用可能な漢字用のコードを丹念に評価した結果、台湾のCNS コードが、文字数が多く、はっきりと定義されており、広く使われているBig-5 コードによっていることから、出発点として最高の条件を備えているという結論に達した。

 しかしながら、必要だったのは、大規模な文字セットではなく、むしろ、自分の機械にインストールしているシステムと漢字コードの如何を問わず、それと組み合わせてこれらの文字を使う方法である。

 言葉を換えれば、良い方法とは、これらのシステムの使用をさまたげない一方で、システムに依存しないものであることが必要なのである。ワールド・ワイド・ウェッブが、アクセント符合のついた文字を扱うように、完全にASC IIをベースにした方法が摸索された−−しかし、我々の場合は、このような表示が何千も必要だったのである。

漢字ベースとは何か?

漢字ベース

 クリスティアン・ウイッテアンによって発明された広範囲な文字セットのコード付の方法である漢字ベースの基盤は、使用しているシステムや地域のコードにない文字のところに、ASC IIの代替記号を挿入することによって作動する。これはテキスト・データベースや通常の言語処理が必要としているものにとっては役に立つ。しかしこれらの表示を通して、もっと容易に種々のコード化(JISやGBやBig-5 のような) 間で、テキストをコンバートしたり、あるいは特定の必要に応じて、様々なレベルの統一を達成することができる。

  他の大きなコードセットとは違って、漢字ベースのよって立つ中国国家基準(CNS) は、今日広く使用されているBig-5 コードと非常に近い関係にある。他の東アジアコードセットは、漢字ベースほどBig-5 に結合していないが、同じ表示で、他のコードセット( たとえば日本のJIS や中国のGB) にない文字を表すことができる。  このように漢字ベースは、Big-5 だけでなく、これらのどんなコードセットをも拡張することができ、使い慣れたOSやアプリケーションで仕事をし続けながら、より大量の漢字が自由に使えるようにできる方法である。

 漢字ベースのコード化は、欠字の使用を容易にし、標準化するのみならず、さまざまな種類の文字コード変換の基盤として役に立つ。たとえば、Big-5 からJIS への変換において、JIS ではたくさんの文字が欠字となるだろう。

 漢字ベースのコード化戦術では、必要な際には( たとえば校正のために) 、印刷可能なビットマップに変換できる代替記号でこれらの欠字を表すことができる。

 もう一つの例: 同じ変換を行なう時、漢字ベースのコード化を、各人の必要に応じて、異なる厳密度を持つコード変換を達成するために使うことができる。もし学術論文の中で文字を使っている場合、字形のわずかな相違をも反映する最も厳密な交換を欲するかもしれない。一方、一字索引の作成を目的とするとき、印刷された索引で文字を探すのを容易にするために、より高次の統合が必要とされるであろう。

 現在、国際禅研で開発中のコード変換ツールセットは、そのような異なるレベルの変換厳密で、JIS からBig-5 へ、またその逆へと変換できるツールを含んでいる。しかしながら、中国のGBコードや韓国のKSC のようなその他のコードについても、この基盤の上に実現することが可能である。

漢字ベースの使い方

 漢字ベースのロジック全体のおかげで、ユーザーの漢文テキストで我々のコードを使うために、何らの特別なツールも高価な装置も必要としない。我々のウィンドウズ用に実現されたものが、インターネット上の電子達摩のホームページを使うことによって、文字を探し出し、そのコードを自分のテキストにコピーできる。インターネットとマッキントッシュ用の漢字ベースの実現は、まだ準備中であるが、禅ベースCD1 には、ウィンドウズ用の漢字ベースが収録されており、文字を選択して、それをワープロ文書に挿入したり、任意のウィンドウズのアプリケーショ ンから利用できるクリップボードへペーストしたりするための道具として使うことができる。  マッキントッシュについては、現在のところ、サポートはより限定されたものとなっている。コードを読み、また印刷のためにビットマップに変換する、ワード6 用のマクロセットが用意されているのみである。

ウィンドウズ用の実現

 ウィンドウズ用にスタンドアローン型の実現をしたのでは、現在のユーザーの環境を補助するという目的にそぐわぬことになるので、我々は手始めとして、今日最も一般的に使用されているワープロソフトであるウィンドウズ用MSワードのヴァージョン6(英語、日本語、中国語版でテストした) とのインターフェースを持つものを作成した。自分のシステム上にウィンドウズ用漢字ベースをインストールしたあと、オプションの「ワードにペーストする」をオンにセットすることができ、そうすれば必要な文字の漢字ツールの中のCEF3BMP マクロはコードを表示可能か つ印刷可能なビットマップに変換する。コードそのものは、隠されたコメントとして埋め込まれるので、文書をテキストファイルとして保存しても、挿入された漢字ベースコードが失われることはない。  他のウィンドウズ用のワープロソフトのためのインターフェースは、もちろん可能であるが、しかし当座のところ、むしろマッキントッシュとインターネット上での実現に焦点を合わせたい。そのようなインターフェースを自分で作成したい場合は、どうぞご連絡ください。

マッキントッシュ上での実現

現在のところ、我々はただマック上のワード6で動作するマクロのセットを持っているだけである。それは漢字ベースのコードを、読みと印刷用のビットマップへと変換することを可能にする。漢字ベースのコードは、隠れたコメントとして埋め込まれているので、テキストファイルとして保存しても、その情報が失われることはない。漢字ベースを検索し、文書にコードをペーストすることも可能なマッキントッシュ上の完全な実現は、現在、準備中である。

他の環境上での実現

現在のところ、他の環境は全くサポートされていないが、インターネット上での実現に取り組んでおり、それは学生や教師、研究者の必要に役立つであろう。

ヴェルナー・ランバーグのCJK TeX

ヴェルナー・ランバーグは、CJK TeXを開発したが、これは大きな潜在可能性を持つ、環境に依存しない実現である。というのも、TeXの植字システムは、大部分の環境で利用可能だからである。CJK TeXパッケージは、ユーザーのLaTeX文書において、中国語、韓国語、日本語のテキストを使うことを可能にする。必要な場合は、これらの言語を同時に使用することさえできる。ランバーグ氏はまた、漢字ベースのコード表現を経由して、CNSに対するサポートをも追加した。もっとも最新のバージョンであるバージョン2.5は、禅ベースCD1に 録されている。詳細については、そこに含まれている説明を参照されたい。

技術情報

 漢字ベースの代替記号を作成するために使われるコードは、次の例のような形になっている:&C3−213A。理解を深めるために、ここで詳細な説明を行なうが、技術的なことに余り関心のない人は、これをとばしていただいても、何ら重要な情報を逃したことにはならないので、心配はいらない。上の例において、いくつかの要素を区別することができる。

 最初と最後の文字、&と;は、開始と終了の区切り記号であり、処理ソフトおよび読者に、この間にある文字が他の部分のデータの流れとは別に取り扱われねばならないことを知らせるものである。続くCの文字は、漢字ベース対応のソフトに対して、このあとに続くものがCNSコードであることを知らせる。

 ここから;までにあるのは、文字そのものを表すコードである。このコードはまた、二つの部分からなっている。一つは、漢字ベースのカバーする領域のどの部分から来た、どのような種類のコードが続くかを明示する分類指標である。そして、もう一つは、(ハイフンのあとの)4 桁の16進コードである。次の許される分類指標とその意味のリストを掲げる。