to Home Page

入力における印づけ

クリスティン・ウイッテアン


梗概

本記事(電子達摩第4号にも収録されている)は、大部の中国禅文献、『五灯会元』の手入力とプログラムによる印づけについての実例研究の紹介である。


版本の選択

詳細に印づけられたテキストの付加価値は、印づけのために費やされた時間を補って余りあるものであるが、もしより少ない労力で印づけを達成することができるなら、それにこしたことはないであろう。同じことをはじめから繰り返すより、先行する仕事の上に積み重ねてゆくことのほうが、賢明というものである。なにしろ、やらねばならぬ仕事は他にもたくさんあるのだから。

 1253年に普済によって編纂された『五灯会元』の入力用の版本を選ぶにあたって、禅知識ベースの研究班は、蘇淵雷の編集で、中華書局から出版されたものを使うことに決定した。この版本の全体的な質に関して、疑問の余地がないわけではないが、我々がこれらを使用することに決めたのは、印刷された印づけ(人名の横に引かれた線や、はっきりした引用符など)があり、便利だという理由からであった。

入力の準備

私がまず最初にとりかかったのは、あとで自動印づけの基礎として使うことになる一群の記号を用意することであった。印刷版では、この情報はたとえば次のような形で含まれている。

それから私は、テキストの2、3頁を入力したが、そこに一群の覚えやすい記号が含まれており、それらの使い方を示すために、それをプリントアウトし、印刷した頁の傍にコピーし、上海の入力スタッフのために詳細な指示を書いた。この例を同封した手紙で、お互いの誤解を避け、また自動印づけのテストができるように、入力のサンプルを送るように要請した。三巻全部を入力してもらってから、問題があるかどうかを見るより、その方が簡単である。上海のスタッフは、このようなことは一度もやったことがなかったので、サンプルが届き、完全に私の望みどお りに仕上がっているのが分かったとき、私は本当に驚いた。

印づけの第一段階

全データを受けとった後、私は便宜的に使った記号をTEIに従ったSGMLの印づけへと変換した。この大部分はプログラムによって行なうことができるが、完全に一貫性を保つことはできない。この第一段階では、印刷版のすべての直線(さまざまな種類の名前を印づける)は、特に断ることなる〈name〉によって印づけられた。

書名は、現代中国の印刷慣行では波線によって表されるが、それは〈title〉という印づけに容易に対応させることができる。また、細字によるコメントは付加的な性質を持つ字体=「インライン」とともに〈note〉の印づけを行なう。脚注は、その大部分が三つの校合本とのテキスト異同に関する注意書きであるが、これについては〈note〉で印づけを行なった。そして、後で、〈app〉、〈lem〉、〈rdg〉などからなるテキスト異同用の適当な印づけ記号によって、個別に置き換えた。

この第一の変換課程での、SGMLに基づく印づけを有効にすることができるという事実によって、入力における無数の誤植を発見するのに決定的な重要性を持つことが判明した。印づけの量を次第に増加させる一方で、ファイルに誤植が入り込まないことが確実になることによって、印づけの有用性がチェックされることになったのである。

印づけの第二段階

変換の第二段階では、引用符を印づけによって置き換えるが、このとき、会話に使われた引用符と引用に使われた引用符とを区別しておき、引用であるものが容易に判別できるようにしておく。ひとつの構造体として、それ自体すでに印づけのすんだ各個人の伝記は、IDコードを割り当てることによって指示することができる。そのときには、その伝記内で「師が言われた」という場合には、すべてこのIDコードを使うことができる。もちろん、これらのIDコードは、現在開発中の他のテキストやデータベースと結合することができ、かくしてその上に複雑なレフ ァレンスのネットワークを展開することのできるような基盤が構築される。

印づけの第三段階

現在まだ完成していないが、さらにもう一つの段階において、「名前」として印づけされたすべての文字にも対応するIDが割り当てられる。このようにしてテキストが通常とは異なる名前を用いている場合でも(たとえば達摩の代わりに「祖師」というように)、その人物を特定し、参照することが可能になる。これは部分的にはプログラムによって達成することができるが、当然、相当な量の修正が必要となるであろう。

 現段階でのTEIに従って印づけされた『五灯会元』は、まだ印づけが完成してはいないが、禅ベースCD1に収録されている。それは、他の計画を刺激して、入力計画の最初の段階から、基本的な印づけの課程を考慮し、組み入れることを試みるように促すための一つの例として役立つであろう。

入力のベースとして、現代の句読点入りの版を使うことは例外的かもしれないが、しかしテキストの構造とレイアウトには、つねに文字を超えた何らかの情報が存在するものである。入力段階において、段落分けをとらえておくだけでも、後にテキストをさらに処理したり、他の目的のためにデータを交換するために、非常に役に立つであろう。


Author:Christian Wittern
Last updated: 95/04/23