Urs App著
私は佛光山を訪れ、このような膨大な量のテキストの作成過程において生じる様々な問題や可能性を見ることができた。ここではその計画を代表的な例として取り上げたい。結論から述べてしまうと、電子版および印刷版のために作成された電子データに適切なタグ付け(名札を付ける意)が欠けていると、後に大きなロスの原因になるこということである。最初の段階でタグ付けがされていれば、このような時間と手間の無駄は省かれると実感した。
この計画には数十人のスタッフが携わり、そのほとんどは尼僧である。編集部は台湾南部の高雄近辺に位置する佛光山寺にある。広い編集室には、豊富な中国や日本の参考文献が置かれている。
初めは出版物だけが予定されていたが、1990年以降、版下の準備のためにコンピュータが使用されるようになり、そこでコンピュータは便利なタイプライターをはるかに越えているとことが明らかになった。以下述べるケーススタディーは、データの扱い方に対する考え方の変化を表している。この変化は現在も進行中である。
景徳傳燈録、天聖廣燈録、續燈録、聯燈會要、普燈録、祖堂集、楞伽師資記、歴代法寶記、禪林僧寶傳、僧寶正續傳、林間録、雲臥記談、羅湖野録、叢林盛事、宗門武庫、雪堂行和尚拾遺録、五家正宗賛、枯崖和尚漫録、山菴雑録、定應大師布袋和尚傳、永明道蹟、智覺禪師自行録、南宋元明禪林僧寶傳.
六祖壇經、善慧大士録、ほう居士語録、傳心法要、宛陵録、雪峰語録、玄沙廣録、玄沙語録、五家語録、分陽無徳禪師語録、明覺禪師語録、洞山語録、曹山語録、宏智廣録、黄龍慧南語録、楊岐方会後録、圜悟語録、虎丘語録、松原語録、破庵祖先語録、佛鑑禪師語録、古尊宿語録、大慧語録、大慧年譜、虚堂語録、御選語録、虚雲和尚年譜、來果禪師語録、星雲禅話.
無心論、少室六門、頓悟眞宗論、頓悟入道要門論、最上乘論、中華傳心地禪門師資承襲圖、永嘉集、禅源諸詮集都序、宗門十規論、禪林寶訓、人天眼目、禪宗決疑集、通玄百問、青州百問、緇門警訓、博山參禪警語、宗門設難、禪關策進、五家宗旨纂要、唯心訣、十牛圖頌、新刻禪宗十牛圖、牧牛圖頌.
碧巌録、無門關、從容録、禪林疏語考證、祖庭事苑、禪林象器箋.
注:これらの訂正された原稿は後の閲読のために保存するべきである。訂正を手掛けるスタッフにはコメントの決まった形式を用いるように指導することが望ましい。そのコメントはタグ付けの形で入力することこもできるからである。そのタグ付けは、後の段階で専門家が分析する問題点の発見を一層容易にする。
注:電子テキストの作成に当って、できる限り原文の情報を最初の段階から保存しておくことが大切である。電子テキストはBIG-5コードよりもはるかに長く存続し、二十年後には誰も現在のコード制限を問題にしないと予想される。したがって、現段階ではできるだけ字形などを標準化しない、やむを得ない場合は最低限の標準化に止めるのが良策だろう。標準化はまた後でいくらでも可能である(たとえば印刷、一字索引やユニコードによるディスプレイ表示など、特定のニーズに合わせたり)。 佛光山計画のテキストの一つの『祖堂集』には、多くの異体字が含まれており、外字を約2000字にとどめるため、相当な標準化を要した。その標準化はたいてい任意に決めらたうえ、取消不可能である。これに対して、電子テキストを扱う場合、検索機能のレベル(ファジー検索、標準化フィルタ等)で標準化することができるので、それを勧めたい。
したがって、初段階からできるかぎり原文に忠実な入力を(必要であればタグ付けの印と多くの外字を用いて)行うべきである。その入力ではなるべく字のサイズ、改行、改頁、など、を記しておくことが望ましい。(Christian Wittern著ケーススタディ、入力段階でのタグ付けの意義に関する記事を参照)。 原則として、初段階からより多くの情報を保存し、入力作業などを組織的に構成すれば、のちの無駄な作業は減り、データ活用の可能性は増える。現在の制約に惑わされず、十年単位で考えるよりも、百年単位でデータの寿命を捉えるのが適切である。
注:私の経験では、原文と同じ書式(縦、または横書き)、そして原文に近い字のサイズでプリントアウトした方が、校正作業の効率が上がり、疲労は減る。
注:校正するスタッフには、原稿に印字されていない異体字をリストアップし、その他の気づいた問題を特定の用紙に記入するようあらかじめ指示しておくべきである。大量のデータ入力を扱う際、そのような用紙は、後の段階で新たな問題が生じた時や方針の展開があった時に便利である。
注:このような校正をする時には、それをタグの形で入力すべきである。そうすれば後に同じテキストの二つの違うバージョンを、さらに校正リストを自動的に作成できる。タグがなければ、テキストの異同に関する選択は紙の山に埋もれるか、または最初に戻り、調べ直さなくてはならないことになってしまう。
なお、原文どおりの改行と書式情報をタグの形で保存すべきである。電子テキストになると、たとえ手の加えられた元テキスト、あるいは違う書式になっていても、そのタグがあれば原文の頁番号および行が表示できるので貴重である。
参照(クロス・リフェレンス)も電子テキストならではの大変便利な機能である。ボタンを押すだけで様々なテキストのなかにある関連部分が表示される。佛光山計画の編集者が禅シリーズを電子化する準備ができた時には、手書きで記したすべての参照を改めて入力しなくてはならない(校正の際に使った校正用紙が紛失されていないとしたらの話だが)。その参照の厳密性は、いうまでもなく編集者の学識に頼るところが大きい。私が佛光山で見たかぎりでは、スタッフは細心の注意を注いでこの作業を行っている印象を受けた。しかし残念なことにスタッフは自分 達の作業が、どれほど後の仕事を助けられるか気づいていなかった。スタッフの目的はただ「よき」テキストを作成して、文献の「真実」を明かすところにあった。
注:印刷テキストと電子テキストが両方とも同じデータに基づいた方が良いという点から、プリントアウトだけを目的とした形式を用いるのはもったいない。むしろ形式を決める時にタグ(SGMLとTEIに従ったタグ付けがベスト)を使用すべきである。そのタグはそれぞれの用途、すなわち印字に、あるいは電子テキストの活用に対応するタグ、を設ける。たとえば、各レベルの章のヘディングを一貫して、タグ付する。そうすれば第一レベルの題のサイズを18ポイントに、第二レベルの題のサイズを14ポイントに、必要に応じて指定できる。タグを特 閧フ目的のため削除したり、プログラムにそれを無視するように命令することは簡単にできる。従来のワープロソフトでやっているように、データの形式を一つだけのソフトに依存させて、レイアウトすることは、印刷目的にしか使用できず、きわめて用途を制約した方法である。最初に苦労をおしまずタグ付けする方がはるかに良い。この作業によって後に他の媒体(CD−ROMなど)にテキストを転載しようとした時、数カ月または数年の時間と費用が節約することができる。
注:普通、校正は別々の二つのグループによって行われる。最初のグループは単に原文と印字された原稿を比較し、漢字の違いを調べる。次のグループは内容に注意しながら校正を行うので、原稿の誤植や疑問点が見つけられる。さらにこのグループは、そのテキスト固有の情報(人名、地名、寺院名、伝記や則、年号、他のテキストの引用、問答など)を容易に把握できる。佛光山ではその情報のいくつかは印刷版のために使われたが、多くの情報はただ校正用紙の上に書かれた鉛筆の印として残っているだけである。そのような情報はできるだけタグと して入力したほうが良い。そうすればレイアウトの作成を自動化するだけでなく、ハイパー・テキスト機能と索引生成の基盤になる。繰り返して述べるが、印刷結果や粗末なデータベースしか考慮しない短期的な方針は多くの貴重な仕事を活かさずに終わってしまう。