高麗大蔵経は、テキスト品質にすぐれているうえ、その版木が現存 し ていることで有名だ。13世紀に製作された8万枚を超える両面木版は、韓国でも最も名 高い禅寺に数えられる海印寺内にある一棟の建物に保管されている。漢文大蔵経全巻を 記録した現存木版としては最古のもので、韓国の国宝にも指定されている。
このプロジェクトの歴史
現在、計画に関わっているスタッフは2つの主要なグル ー プに分けられる。
1)三星チーム ソウル市中心街の入力センターに約50人。給料は三星が支払っている 。 主な仕事は大蔵経全体の入力作業で、入力作業者約40人のほか編集担当者、文字・異体 字リスト担当の学生、それにエンジニアが作業を進めている。
2)海印寺チーム 同寺が雇った数名のスタッフで、ソウル市内に別個の事務所を設け 、 データ配布関連事項(データ校正、検索メカニズム、インターネットなど)の研究を行 っている。
1994年末から、入力は速いペースで進んでおり、基礎入力作業については1995年11月に も終了の見込みとなっている。三星チームを率いるコンピュータエンジニアは、1996年 第1四半期にもCD-ROMの生産にこぎつけたいとしている。海印寺チー ムでは、電子テキストが膨大な量に上るため、訂正には十年以上を要すると見ているが 、国際禅研がテキスト校正が不十分な(校正状況ALPHA)ままZenBase CD-ROMを発表し たことを受け、このプロジェクトでも校正段階ALPHAでの高麗大蔵経全巻の配布が近く 開始される可能性も出てきた。
ソウル市内の入力施設は、清潔でスペースも広く、設備もよく整 っていてまったく申し分ない。入力作業者が使っているコンピュータや、見台、ハンド レスト、スクリーンフィルターなども適切なものだった。コンピュータはすべてネット ワークを介してエンジニアの作業室と接続されていた。これまで多くの入力センターを 見てきたが、このプロジェクトの体制はとくに整備が行き届いており、感心した。
4年前に上海で行われた最初の入力テストの結果、入力作業の最大の問題は漢字の字 母数が多いことより、むしろ高麗大蔵経に含まれる大量の異体字の処理であることが分 かった。つまり、少しずつ形の異なる文字に対応して新たにフォントを作成するのか、 入力段階で「標準化」を行うのか、という問題だ。入力計画を担当した三星のエンジニ アたちは、木版の字体を再現したスクリーンフォントを使うことで 、初期の段階からBig-5フォント使用に伴う多くの問題を解決する方針を決めた。この 原則を簡単に言えば、「入力の際、印刷の字体と同じ字体を画面に表示し、入力段階か ら字体関連の決定事項をほぼ解消する」ものである。そうした決定が介在すると、関係 者の意見の食い違いからデータ品質が損なわれることが、これまでの経験から明らかに なっているためである。
文字コードとしては、三星側は、ある韓国製ワードプロセッサに
用いられている1万6000字のコードを採用することにした。しかし、これだけでは不十
分であることが判明し、2000字近くの増補を行った。現在、基礎入力が最終段階を迎え
たため、ほぼ同数の漢字を新たに追加する作業が進められている。あまり普及していな
い文字コードを使うことにはいくつかの利点がある。1つは、必要に応じて文字や字形
を自由に定義でき、字数が増やせること。ただ、後から三星コードと台湾のBig-5、日
本のJIS、ユニコードなどを対応させた変換テーブルを作成する必要がある。関係者の
話では、KSコード(韓国)変換テーブルはすでに完成しているが、KSにない文字が数多
くあり、その処理の問題が解決されていないという。この点に関して私は、ハードウェ
アにもソフトウェアにも依存しない 三星の入力作業は、作業員約40名(ほとんど女性)を雇い、研修
を受講させる体制で行われている。美しいスクリーン・フォントとWindows対応の自社
製文書処理プログラム、高速ハードウェア、そして中国で考案された入力方法。これら
を組み合わせることで最適な入力作業環境が実現している。画面の文字は、印刷テキス
トと同じく縦書き表示されるので、GUI上での編集作業はとても簡単だ。
入力方式は、読みでなく字形をベースにしているので、入力者は
字形とキーボード上のキーの対応を覚える必要がある。普通のキーボードでは、漢字一
字当りの入力キー数は平均3回。また、よく使う文字や句は、短縮キー操作を登録でき
る。入力スピードの速さにはまったく驚いた。
システムにない欠字
上は○印をつけたページの写真だが、これを見るとよく使われる漢字が欠字として
マ
ークされている。しかも、大蔵経全体の3分の2が入力された段階でもこの状態なのだ。
定期的に文字セットに欠字を増補していれば、当然こうしたアスタリスクはほとんど不
要だったはずである。このように修正の時機を逸した場合には、後からの修正にはきま
ってはるかに多くの時間がかかる。データファイルに大量のアスタリスクがあることか
ら、アスタリスクの削除は今後必ず大きな問題となるだろう。しか
し、これはあらかじめ解決できたはずの問題である。アスタリスクを入れる代わりに、
マーカーで区切った入力コードを入れておいて、これを後から自動的に置換すればよい
。
さらに、ちょっと見ただけだが、マークされた字の中には文字セットにあるのに誤
っ
て○印をつけたものもあった。入力者がその字がすぐに見つからないというので、アス
タリスクを入れてしまったのだろう。入力スピード重視のあまりチェックが甘くなると
、こうした誤りが「例外」でなく「常態化」してくる。入力シートをいくつか見たが、
似たような誤りが習慣化している例が多く目についた。例えば、上の写真の右下の「頓
」は、フォントセットにある字で、入力できたはずのものである。 このような例から、私は品質管理水準について疑念を抱くように
なった。 異体字の取り扱い 毎日異体字の表示文字を追加していき、(上の写真のように)入力者に通知する(
私
なら入力コードを打ち込むとウィンドウが開くオンライン文書を使うだろうが)として
も、それではキリがないだろう。高麗大蔵経の異体字の多様さは、この分野を専門にし
ている学者がいるほどなのだ。現在の入力計画では、三星がわずかの学生を雇って、○
をつけた異体字をカードに記録させ、これをリスト化しているというおぼつかない状態
である。
この膨大なリストを収納した引出しにはハングル表示があったことから、全体を読
み
のハングル文字順に整理しているものと考えられる。しかし、異体字やまれにしか現わ
れない漢字の読みは、不明または確定困難な場合が多い。なぜ、字形ベースの入力コー
ド順で整理し、入力者に直接この資料を活用させないのだろうか。理由の一端は、とき
どきソウルにやってきては「同じ字」に当たる異体字のリストをもってくる異体字監修
担当の韓国の大学教授にあるのだろう。おそらく自分では漢字入力ができないため、入
力コードの利用の仕方を知らないものと思われる。この教授の指示が入力段階でどれだ
け厳格に守られているかよく分からないが、入力者の机の上の印をつけた少数の異体字
から判断するかぎり、「標準化」作業も大部分が後回しにされていると考えざるをえな
い。
必要な標準化の程度 このように、電子テキストの標準化は本質的にはソフトウェアの仕事だ。しかし、
そ
のためには少し準備が必要になる。私が責任者なら、スキャナーで読み取った異体字の
オンライン・リストを作って入力作業者に使えるようにする。このリストでは、文字画
像をクリックすると、教授が提案する「標準化」文字と、その周囲に原本の異体字の識
別番号を示す印づけされた文字列が入力される。このようにすれば、入力作業者の負担
もたいして増やさないですむ(画面を見る回数とキー入力回数がそれぞれ1回増えるだ
け)うえに、後処理に貴重な情報を残すことができる。まず、データの全体的品質の判
断をだた一人の専門家にまかせる必要がなくなる。第二に、後からの一括訂正が可能に
なる。第三に、多様な版を作成することができる(異体字に関心をもつ研究者向けバー
ジョンなど)。第四に、これがおそらくは最も重要な点だが、現行コードまたは今後実
施されるコードへの変換がきわめて容易に行える。例えば、日本JISコードは、非常に
多くの異体字を含むが、Big-5コードにはほとんど異体字が収録されていない。ユニコ
ードにはかなり収録されるだろうし、将来はすべてをカバーしたコード(あるいは専門
家向けコード)が実現するかもしれない。適切なソフトウェア的方法論を採用すれば、
こうした異なるすべてのコードへの対応が可能となるし、現在では思いもつかないよう
な用途に役立つことも考えられる。標準化作業はたしかに必要ではあるが、それは基本
データを変更せずに、用途に応じた「処理」の一部として行われるべきだろう。『電子
達摩』第3号の例えでいえば、入力データは音楽のマスターテープのようなもので、き
わめて高い情報品質が要求される。しかしこれを特定の用途に利用する場合には、品質
を落とす場合があってよい(カセットテープのように)。大は小を兼ねる。しかし、カ
ルーソーの録音を愛する人ならお分かりのように、小が大を兼ねることはほとんど不可
能である。
以上で指摘した問題の一部は、電子テキストがまだ新しい媒体で
、私たちがまだそれに不慣れなために起るものである こうした記述的印づけをしておくと、後工程の作業が非常に楽になる。例えば、テ
キ
ストに対応した漢字ファイル名をもつファイルを自動的に作成したり、すべての異体字
形をコマンド一つでリストアップすることができる。
三星物産がデータの校正・編集にどの程度関わるつもりなのか、今はまだ不透明だ
が
、私としては、少なくともデータ校正の第1段階では、原本と入力データを印刷したも
のとを一字ずつ照合する作業を入力工程の一部に含めるべきだと思う。そうしておけば
、テキストの内容に注目する第2、第3段階では内容にもとづく印づけ(句読点、人名、
仏・菩薩の名称、地名、テキスト名、註釈など)の準備作業を色鉛筆を使って進めるこ
とができる。
コンピュータ技術者に対しては、印づけの初めの段階から重要な役
割
を与え、データ品質確保の基礎がためを行うべきだろう。電子テキストおよびその特殊
な要素、形式、可能性についての知識が増せば、それだけ仕事も質も向上する。だから
、最初の段階から、電子テキスト処理に豊かな経験をもつ研究者が
参加した方がよい。同計画のいくつかの面についての上記の評価からも分かるように、
研究者の意見を入れることで何千時間もの省力化と基礎データ品質の大幅改善が実現す
る可能性があるからだ。しかし、内容による印づけの要素が強くなるにつれて、それだ
け当該分野の専門の研究者の役割は大きくなる。コンピュータの専
門家には古い漢文仏典の句読点づけはできないし、より重要な印づけならなおさらだ。
こうした印づけの多くは、専門の研究者ならコンピュータを知らない人でも紙と色鉛筆
があれば行える。
もちろん、コンピュータ技術者(「何ができるか」を知っている)と研究者(「何が必
要か」を把握する)との共同作業は、計画全体にわたって行うことが絶対に欠かせない
。
記述的印づけは、計画と運営さえうまくやれば、最終的には電子テキスト
に
特有のメリットを完全に引出すことができる。その利点の一部はすでに知ら
れているが、多くは依然として無視されたままだ。大量のデータをリンクさせるという
すぐれた機能は、大蔵経の情報を辞書情報にリンクするうえで決定的な役割を果たすだ
ろう。例えば、「ある特定の人物が訳したテキストや特定の時代に訳されたものだけを
検索する」、「人名をクリックすると対応する辞書の見出し語が表示される」、といっ
た使い方が考えられる。いずれにしても、その昔、一つの「品」を彫る前に経典を伏拝
しつつ高麗大蔵経を木版に「入力」していった熱心な僧侶や在家の人々は、自分たちが
残した成果が後の世にこうした新しい形として生まれ変わるなどとは夢にも思わなかっ
たということだけは確かだ。十年にわたるデータ校正や印づけといっても、そうした人
々の苦労に比べれば楽なものである。現在の電子版は、その品質の高さにより今後少な
くとも千年は利用できると思われるが、それを作成する仕事もそうした昔の人々の努力
なしにはありえなかったのである。
著者:ウルス・ア
ッ
プ
最終更新: 96.5.8