ホームページへ

「高麗大蔵経入力計画」探訪

ウルス・アップ

(写真を追加) 高麗大蔵経入力計画では入力が完了し、1996年1月ソウル市内でこれを祝う記念式典が 開催された。
この式典では同計画の関係者や主催者、後援者にCD1000枚が配布された。
このCDが利用できるのは、今のところ韓国語版Windowsに専用の文書処理プログラムを イ ンストールした場合だけである。各ファイルは、原本の各ページに対応する。詳細につ いては「電子仏典推進協議会台北会議」報告 を参照された い。(1996年4月)

1995年9月24日、私は世界有数規模の入力計画として知られる高麗大蔵経計画の事務所2 ヶ所を訪問した。その際に気づいた点を以下にいくつかまとめてみた。同計画はもとよ り、東アジアやその他の地域で進められている同様の計画を進めるうえで参考になれば 幸いである。

高麗大蔵経は、テキスト品質にすぐれているうえ、その版木が現存 し ていることで有名だ。13世紀に製作された8万枚を超える両面木版は、韓国でも最も名 高い禅寺に数えられる海印寺内にある一棟の建物に保管されている。漢文大蔵経全巻を 記録した現存木版としては最古のもので、韓国の国宝にも指定されている。

海印寺の版木を手に取る柳田聖山教授

このプロジェクトの歴史はまだ浅く、実質的な立ち上げは19 91年にルイス・ランカスター教授により開始された入力テストからである。1993年から は、かつて国際禅学研究所(京都)で研究を行っていた海印寺の宗林(チョンニム)師 が計画全体の指揮に当たっている。2年間の初期テストで、大蔵経の第一巻、第二巻の 入力を終了し、さまざまな問題が明らかになった。その後、多数の僧侶や学者らが協力 し、同経に多く含まれる異体字をめぐるさまざまな問題についての研究がスタートした 。研究の資金集めやさまざまな支援を得るための活動が進められたが、1994年9月に海 印寺で開催された電子仏典推進協議会の会合に私が出席した時点では、大規模な入力作 業がすぐにも始まるとは思えなかった。だがその直後、韓国の大手企業、三星物産の社 長が資金・人材両面にわたる同入力計画への支援を決定したのだ。


現在、計画に関わっているスタッフ2つの主要なグル ー プに分けられる。

1)三星チーム ソウル市中心街の入力センターに約50人。給料は三星が支払っている 。 主な仕事は大蔵経全体の入力作業で、入力作業者約40人のほか編集担当者、文字・異体 字リスト担当の学生、それにエンジニアが作業を進めている。

2)海印寺チーム 同寺が雇った数名のスタッフで、ソウル市内に別個の事務所を設け 、 データ配布関連事項(データ校正、検索メカニズム、インターネットなど)の研究を行 っている。

1994年末から、入力は速いペースで進んでおり、基礎入力作業については1995年11月に も終了の見込みとなっている。三星チームを率いるコンピュータエンジニアは、1996年 第1四半期にもCD-ROMの生産にこぎつけたいとしている。海印寺チー ムでは、電子テキストが膨大な量に上るため、訂正には十年以上を要すると見ているが 、国際禅研がテキスト校正が不十分な(校正状況ALPHA)ままZenBase CD-ROMを発表し たことを受け、このプロジェクトでも校正段階ALPHAでの高麗大蔵経全巻の配布が近く 開始される可能性も出てきた。

ソウル市内の入力施設は、清潔でスペースも広く、設備もよく整 っていてまったく申し分ない。入力作業者が使っているコンピュータや、見台、ハンド レスト、スクリーンフィルターなども適切なものだった。コンピュータはすべてネット ワークを介してエンジニアの作業室と接続されていた。これまで多くの入力センターを 見てきたが、このプロジェクトの体制はとくに整備が行き届いており、感心した。

4年前に上海で行われた最初の入力テストの結果、入力作業の最大の問題は漢字の字 母数が多いことより、むしろ高麗大蔵経に含まれる大量の異体字の処理であることが分 かった。つまり、少しずつ形の異なる文字に対応して新たにフォントを作成するのか、 入力段階で「標準化」を行うのか、という問題だ。入力計画を担当した三星のエンジニ アたちは、木版の字体を再現したスクリーンフォントを使うことで 、初期の段階からBig-5フォント使用に伴う多くの問題を解決する方針を決めた。この 原則を簡単に言えば、「入力の際、印刷の字体と同じ字体を画面に表示し、入力段階か ら字体関連の決定事項をほぼ解消する」ものである。そうした決定が介在すると、関係 者の意見の食い違いからデータ品質が損なわれることが、これまでの経験から明らかに なっているためである。


文字コードとしては、三星側は、ある韓国製ワードプロセッサに 用いられている1万6000字のコードを採用することにした。しかし、これだけでは不十 分であることが判明し、2000字近くの増補を行った。現在、基礎入力が最終段階を迎え たため、ほぼ同数の漢字を新たに追加する作業が進められている。あまり普及していな い文字コードを使うことにはいくつかの利点がある。1つは、必要に応じて文字や字形 を自由に定義でき、字数が増やせること。ただ、後から三星コードと台湾のBig-5、日 本のJIS、ユニコードなどを対応させた変換テーブルを作成する必要がある。関係者の 話では、KSコード(韓国)変換テーブルはすでに完成しているが、KSにない文字が数多 くあり、その処理の問題が解決されていないという。この点に関して私は、ハードウェ アにもソフトウェアにも依存しない「漢字ベース 」方式が最も有効な手法であることを注意しておきたいと思う。

三星の入力作業は、作業員約40名(ほとんど女性)を雇い、研修 を受講させる体制で行われている。美しいスクリーン・フォントとWindows対応の自社 製文書処理プログラム、高速ハードウェア、そして中国で考案された入力方法。これら を組み合わせることで最適な入力作業環境が実現している。画面の文字は、印刷テキス トと同じく縦書き表示されるので、GUI上での編集作業はとても簡単だ。

入力方式は、読みでなく字形をベースにしているので、入力者は 字形とキーボード上のキーの対応を覚える必要がある。普通のキーボードでは、漢字一 字当りの入力キー数は平均3回。また、よく使う文字や句は、短縮キー操作を登録でき る。入力スピードの速さにはまったく驚いた。

システムにない欠字については、作業者が原稿に○印をつけ 、アスタリスクを入力する。私が見た例では、画面の3分の2まで入力した状態でアスタ リスクが19個もあり、これが最大の難点の一つと思われた。

上は○印をつけたページの写真だが、これを見るとよく使われる漢字が欠字として マ ークされている。しかも、大蔵経全体の3分の2が入力された段階でもこの状態なのだ。 定期的に文字セットに欠字を増補していれば、当然こうしたアスタリスクはほとんど不 要だったはずである。このように修正の時機を逸した場合には、後からの修正にはきま ってはるかに多くの時間がかかる。データファイルに大量のアスタリスクがあることか ら、アスタリスクの削除は今後必ず大きな問題となるだろう。しか し、これはあらかじめ解決できたはずの問題である。アスタリスクを入れる代わりに、 マーカーで区切った入力コードを入れておいて、これを後から自動的に置換すればよい 。

さらに、ちょっと見ただけだが、マークされた字の中には文字セットにあるのに誤 っ て○印をつけたものもあった。入力者がその字がすぐに見つからないというので、アス タリスクを入れてしまったのだろう。入力スピード重視のあまりチェックが甘くなると 、こうした誤りが「例外」でなく「常態化」してくる。入力シートをいくつか見たが、 似たような誤りが習慣化している例が多く目についた。例えば、上の写真の右下の「頓 」は、フォントセットにある字で、入力できたはずのものである。



このような例から、私は品質管理水準について疑念を抱くように なった。私が中心となって進めている入力計画の経験からいうと、高いデータ品質 を確保するには、網羅的なデータ校正を頻繁に行うとともに、入力作業者に対して厳格 な指針を徹底する必要がある。だから、入力時間はいわば相対的なもので、つねにデー タ校正や編集にかかる時間との連関で考えられるべきものなのだ。ただそのためには、 実際に校正や編集をやってみなければならない。誤入力の割合について聞くと、1%程 度ということだった。ふつう校正には初期入力に比べて労力が要ることを考えると、こ れは巨大プロジェクトとしてはきわめて高い確率である。しかし、何度も質問していく うちに、入力データのチェックはこれまでほとんど行われていないことが分かった。後 回しになっているのだ。もし仮に私が責任者だったら、早い段階か入力者に自分の入力 したデータを校正するように指導するだろう。そして、漢字や異体字の問題に詳しい校 正者に2度めのチェックをさせた後、入力者にそこで発見されたミスを訂正させる。こ うすれば、目もよくなり注意力も増し、入力速度とデータ品質を合せた総合評価として も最大限の効果が上がるだろう。また当然ながら、こうした基本的な入力品質管理を行 えば、これまで見逃されていたさまざまな問題も早期に発見できる。以下では、そうし た問題に焦点を絞って考察してみたいと思う。


異体字の取り扱いはきわめて重要なポイントである。木版は 手書き文字を手本に作られるので、字形の異なる文字が無限に生まれるからだ。下の写 真は、入力作業者の机の上に置かれていたもので、使用頻度が最も高い異体字とその入 力コード、短縮入力キーの一覧表である。

毎日異体字の表示文字を追加していき、(上の写真のように)入力者に通知する( 私 なら入力コードを打ち込むとウィンドウが開くオンライン文書を使うだろうが)として も、それではキリがないだろう。高麗大蔵経の異体字の多様さは、この分野を専門にし ている学者がいるほどなのだ。現在の入力計画では、三星がわずかの学生を雇って、○ をつけた異体字をカードに記録させ、これをリスト化しているというおぼつかない状態 である。

この膨大なリストを収納した引出しにはハングル表示があったことから、全体を読 み のハングル文字順に整理しているものと考えられる。しかし、異体字やまれにしか現わ れない漢字の読みは、不明または確定困難な場合が多い。なぜ、字形ベースの入力コー ド順で整理し、入力者に直接この資料を活用させないのだろうか。理由の一端は、とき どきソウルにやってきては「同じ字」に当たる異体字のリストをもってくる異体字監修 担当の韓国の大学教授にあるのだろう。おそらく自分では漢字入力ができないため、入 力コードの利用の仕方を知らないものと思われる。この教授の指示が入力段階でどれだ け厳格に守られているかよく分からないが、入力者の机の上の印をつけた少数の異体字 から判断するかぎり、「標準化」作業も大部分が後回しにされていると考えざるをえな い。

必要な標準化の程度についての取り扱いは、間違った方向か ら行われている場合が多い。全体として、印刷時代の考え方が依然として根強く残って いる印象を受ける。印刷では、2つの文字を同じ場所に重ねて表示することができない ため、どちらかを選択しなければならない。そこで、異体字の活字を作る手間を省き、 手許にある標準字形を採用する「標準化」が行われることになる。これに対して、電子 テキストでは、フィルター処理ができる特殊なマーカーを設定しておけば、同じ位置に 好きなだけ多くの文字を使用できるから、その都度の必要に応じて一般利用者には一般 的な書体、専門家には原本の書体というふうに使い分けができる。つまり、電子テキス トは、正確に印づけを行えば、柔軟な利用ができるし、しかも用途に応じたきめ細かな 対応が可能なのである。

このように、電子テキストの標準化は本質的にはソフトウェアの仕事だ。しかし、 そ のためには少し準備が必要になる。私が責任者なら、スキャナーで読み取った異体字の オンライン・リストを作って入力作業者に使えるようにする。このリストでは、文字画 像をクリックすると、教授が提案する「標準化」文字と、その周囲に原本の異体字の識 別番号を示す印づけされた文字列が入力される。このようにすれば、入力作業者の負担 もたいして増やさないですむ(画面を見る回数とキー入力回数がそれぞれ1回増えるだ け)うえに、後処理に貴重な情報を残すことができる。まず、データの全体的品質の判 断をだた一人の専門家にまかせる必要がなくなる。第二に、後からの一括訂正が可能に なる。第三に、多様な版を作成することができる(異体字に関心をもつ研究者向けバー ジョンなど)。第四に、これがおそらくは最も重要な点だが、現行コードまたは今後実 施されるコードへの変換がきわめて容易に行える。例えば、日本JISコードは、非常に 多くの異体字を含むが、Big-5コードにはほとんど異体字が収録されていない。ユニコ ードにはかなり収録されるだろうし、将来はすべてをカバーしたコード(あるいは専門 家向けコード)が実現するかもしれない。適切なソフトウェア的方法論を採用すれば、 こうした異なるすべてのコードへの対応が可能となるし、現在では思いもつかないよう な用途に役立つことも考えられる。標準化作業はたしかに必要ではあるが、それは基本 データを変更せずに、用途に応じた「処理」の一部として行われるべきだろう。『電子 達摩』第3号の例えでいえば、入力データは音楽のマスターテープのようなもので、き わめて高い情報品質が要求される。しかしこれを特定の用途に利用する場合には、品質 を落とす場合があってよい(カセットテープのように)。大は小を兼ねる。しかし、カ ルーソーの録音を愛する人ならお分かりのように、小が大を兼ねることはほとんど不可 能である。


以上で指摘した問題の一部は、電子テキストがまだ新しい媒体で 、私たちがまだそれに不慣れなために起るものである。紙に印刷するという思考の 枠組みは容易には変らない。このことはソウルの入力センターでの編集作業を見ても明 らかだ。同センターでは、5〜6名の作業者が入力データの形式の校正に当っており、電 子テキストに原本の形式を忠実に反映するため、キャリッジリターン(CR)の挿入・削 除を繰り返している。私が見たかぎりでは、この作業は全体が「手順的」(手 順的印づけprocedural markup)で、内容面は一切考慮されていない。例えば 、章の表題はふつう1行で、行末にCRを入力する。それが表題と一目で分かるのは印刷 レイアウトのおかげである。電子テキストでは、マーカーを付けることでこの内在的情 報を外在化する必要がある。例えば、表題部分を選択してメニューで「章ヘッダ」を選 ぶという操作を行う。この操作では、選択した行頭に例えば<HEAD2>、行末には& lt;/HEAD2>が追加され、テキスト全体の表題は<HEAD1>、</HEAD1>で表 示される。この単純な方法を使えば、何千という表題があっても、それらに対して一挙 に特定のポイントサイズが指定できるし、大蔵経のすべての表題、副題を網羅した索引 を作成することもできる。表題をそのつど手動操作で選択し、ポイントサイズを指定す る手順的印づけに対して、この方法は記述的印づけdescriptive markupと呼ばれる。高麗大蔵経入力計画の場合、この記述的印づけがさまざまな目的に利 用できるだろう。以下の例は、一つの例外を除いては、容易に実行でき、編集作業に非 常に適している。

こうした記述的印づけをしておくと、後工程の作業が非常に楽になる。例えば、テ キ ストに対応した漢字ファイル名をもつファイルを自動的に作成したり、すべての異体字 形をコマンド一つでリストアップすることができる。


三星物産がデータの校正・編集にどの程度関わるつもりなのか、今はまだ不透明だ が 、私としては、少なくともデータ校正の第1段階では、原本と入力データを印刷したも のとを一字ずつ照合する作業を入力工程の一部に含めるべきだと思う。そうしておけば 、テキストの内容に注目する第2、第3段階では内容にもとづく印づけ(句読点、人名、 仏・菩薩の名称、地名、テキスト名、註釈など)の準備作業を色鉛筆を使って進めるこ とができる。

コンピュータ技術者に対しては、印づけの初めの段階から重要な役 割 を与え、データ品質確保の基礎がためを行うべきだろう。電子テキストおよびその特殊 な要素、形式、可能性についての知識が増せば、それだけ仕事も質も向上する。だから 、最初の段階から、電子テキスト処理に豊かな経験をもつ研究者が 参加した方がよい。同計画のいくつかの面についての上記の評価からも分かるように、 研究者の意見を入れることで何千時間もの省力化と基礎データ品質の大幅改善が実現す る可能性があるからだ。しかし、内容による印づけの要素が強くなるにつれて、それだ け当該分野の専門の研究者の役割は大きくなる。コンピュータの専 門家には古い漢文仏典の句読点づけはできないし、より重要な印づけならなおさらだ。 こうした印づけの多くは、専門の研究者ならコンピュータを知らない人でも紙と色鉛筆 があれば行える。

もちろん、コンピュータ技術者(「何ができるか」を知っている)と研究者(「何が必 要か」を把握する)との共同作業は、計画全体にわたって行うことが絶対に欠かせない 。

記述的印づけは、計画と運営さえうまくやれば、最終的には電子テキスト に 特有のメリットを完全に引出すことができる。その利点の一部はすでに知ら れているが、多くは依然として無視されたままだ。大量のデータをリンクさせるという すぐれた機能は、大蔵経の情報を辞書情報にリンクするうえで決定的な役割を果たすだ ろう。例えば、「ある特定の人物が訳したテキストや特定の時代に訳されたものだけを 検索する」、「人名をクリックすると対応する辞書の見出し語が表示される」、といっ た使い方が考えられる。いずれにしても、その昔、一つの「品」を彫る前に経典を伏拝 しつつ高麗大蔵経を木版に「入力」していった熱心な僧侶や在家の人々は、自分たちが 残した成果が後の世にこうした新しい形として生まれ変わるなどとは夢にも思わなかっ たということだけは確かだ。十年にわたるデータ校正や印づけといっても、そうした人 々の苦労に比べれば楽なものである。現在の電子版は、その品質の高さにより今後少な くとも千年は利用できると思われるが、それを作成する仕事もそうした昔の人々の努力 なしにはありえなかったのである。


著者:ウルス・ア ッ プ
最終更新: 96.5.8