目次へ

タグ付けの重要性

佛光山計画のケーススタディー

Urs App著


概要

この記事では膨大な中国仏典入力計画である佛光山計画を紹介する(『電子達磨』第4号の中にも掲載されている)。1987年に初めて佛光山の文献シリーズが出版された当初、電子テキストは使われていなかった。同じように1989年に出版された全8巻の佛光山の仏教大辞典も電子入力されず、従来どおり作成された。1994年12月に出版された全51巻の禅文献シリーズに関してはコンピュータが広範囲に使われた(詳細については以下参照)。しかし、その時点ではまだ電子版は本格的に計画されていなかった。印刷作業の最後の段階 においてこの新たな目的が誕生したのである。

私は佛光山を訪れ、このような膨大な量のテキストの作成過程において生じる様々な問題や可能性を見ることができた。ここではその計画を代表的な例として取り上げたい。結論から述べてしまうと、電子版および印刷版のために作成された電子データに適切なタグ付け(名札を付ける意)が欠けていると、後に大きなロスの原因になるこということである。最初の段階でタグ付けがされていれば、このような時間と手間の無駄は省かれると実感した。


1. 佛光山計画

1977年に発足した佛光山計画の当初の目的は仏教大辞典の出版(全8巻、1989年出版)および新たな中国仏典シリーズの出版にあった。それは、阿含部(全17巻、 1987年出版、般若部(近刊予定)、禅部(全51巻、1993年12月出版)、さらに中国仏典広範にわたる、華厳、法華、唯識、律、上座、金剛乗など、他13の部を含む。

この計画には数十人のスタッフが携わり、そのほとんどは尼僧である。編集部は台湾南部の高雄近辺に位置する佛光山寺にある。広い編集室には、豊富な中国や日本の参考文献が置かれている。

初めは出版物だけが予定されていたが、1990年以降、版下の準備のためにコンピュータが使用されるようになり、そこでコンピュータは便利なタイプライターをはるかに越えているとことが明らかになった。以下述べるケーススタディーは、データの扱い方に対する考え方の変化を表している。この変化は現在も進行中である。


2. 佛光山の禅文献シリーズ

全51巻を含むこのシリーズは最も重要な禅文献と関係資料を選択し、1994年末に出版された。これらは完全にコンピュータ入力されている。このシリーズは四つに分けられ、さらにいくつかの付録から構成されている。
  1. 史伝類(全23部)
    景徳傳燈録、天聖廣燈録、續燈録、聯燈會要、普燈録、祖堂集、楞伽師資記、歴代法寶記、禪林僧寶傳、僧寶正續傳、林間録、雲臥記談、羅湖野録、叢林盛事、宗門武庫、雪堂行和尚拾遺録、五家正宗賛、枯崖和尚漫録、山菴雑録、定應大師布袋和尚傳、永明道蹟、智覺禪師自行録、南宋元明禪林僧寶傳.
  2. 語録類(全29部)
    六祖壇經、善慧大士録、ほう居士語録、傳心法要、宛陵録、雪峰語録、玄沙廣録、玄沙語録、五家語録、分陽無徳禪師語録、明覺禪師語録、洞山語録、曹山語録、宏智廣録、黄龍慧南語録、楊岐方会後録、圜悟語録、虎丘語録、松原語録、破庵祖先語録、佛鑑禪師語録、古尊宿語録、大慧語録、大慧年譜、虚堂語録、御選語録、虚雲和尚年譜、來果禪師語録、星雲禅話.
  3. 禅論、詩、その他(全23部)
    無心論、少室六門、頓悟眞宗論、頓悟入道要門論、最上乘論、中華傳心地禪門師資承襲圖、永嘉集、禅源諸詮集都序、宗門十規論、禪林寶訓、人天眼目、禪宗決疑集、通玄百問、青州百問、緇門警訓、博山參禪警語、宗門設難、禪關策進、五家宗旨纂要、唯心訣、十牛圖頌、新刻禪宗十牛圖、牧牛圖頌.
  4. 公案集、辞書類など(全6部)
    碧巌録、無門關、從容録、禪林疏語考證、祖庭事苑、禪林象器箋.
  5. 付録:参考文献、述語・人名・地名・寺院名の索引
以上の長いリストは、これらの膨大な文献が出版されるまで、多くのスタッフが数年を掛けて、データを入力し訂正したことを示している。次の部分ではこの全51巻の禅シリーズの編集過程についてまとめてみた。


3. 編集過程

禅シリーズを編纂する期間中、編集作業はかなり細かく分化されるようになった。次の概要は私が1994年12月に、佛光山を訪れた際に受け取った編集スタッフの作業表と編集部の資料に基づいている。以下では各編集過程を紹介するとともに、それに対する提案と私見を述べる。それらの指摘は今までなされてきたことの批判というよりも、今後の電子テキストに関する改善策を提案するものである。
  1. 入力のため、原資料のどの版を選択するかを決定。
  2. 入力のため、その資料のコピー作業。
  3. 句読点づけ(印字された原稿に手書きのコメントを付け、二回の訂正を含む)。
    注:これらの訂正された原稿は後の閲読のために保存するべきである。訂正を手掛けるスタッフにはコメントの決まった形式を用いるように指導することが望ましい。そのコメントはタグ付けの形で入力することこもできるからである。そのタグ付けは、後の段階で専門家が分析する問題点の発見を一層容易にする。
  4. 手作業によるコンピュータ入力(「倚天」環境でのPE2エディタ使用)。 欠字が多いため、頻繁に出てくる欠字をBIG-5の字形に合わせるよう、いくつかの決定がなされた。(たとえばテキストの中で、「却」は「卻」に置き換えられ, 「爲 」は「為」に、「恠」は「怪」に、「峯」は「 峰 」に、等)。それに加え、1,714 字は「外字」(すなわち標準の漢字に含まれず作字したもの)として作成された。 各入力スタッフは標準化すべき漢字リストを与えられていた。そのリストを私は見ることが出来なかったが、入力が進むにつれて新たな決定がされたことと考えられる。印刷の最終段階ではBIG-5外の総漢字数は2,135にのぼった。
    注:電子テキストの作成に当って、できる限り原文の情報を最初の段階から保存しておくことが大切である。電子テキストはBIG-5コードよりもはるかに長く存続し、二十年後には誰も現在のコード制限を問題にしないと予想される。したがって、現段階ではできるだけ字形などを標準化しない、やむを得ない場合は最低限の標準化に止めるのが良策だろう。標準化はまた後でいくらでも可能である(たとえば印刷、一字索引やユニコードによるディスプレイ表示など、特定のニーズに合わせたり)。 佛光山計画のテキストの一つの『祖堂集』には、多くの異体字が含まれており、外字を約2000字にとどめるため、相当な標準化を要した。その標準化はたいてい任意に決めらたうえ、取消不可能である。これに対して、電子テキストを扱う場合、検索機能のレベル(ファジー検索、標準化フィルタ等)で標準化することができるので、それを勧めたい。
    したがって、初段階からできるかぎり原文に忠実な入力を(必要であればタグ付けの印と多くの外字を用いて)行うべきである。その入力ではなるべく字のサイズ、改行、改頁、など、を記しておくことが望ましい。(Christian Wittern著ケーススタディ、入力段階でのタグ付けの意義に関する記事を参照)。 原則として、初段階からより多くの情報を保存し、入力作業などを組織的に構成すれば、のちの無駄な作業は減り、データ活用の可能性は増える。現在の制約に惑わされず、十年単位で考えるよりも、百年単位でデータの寿命を捉えるのが適切である。
  5. 第一次訂正のためのプリントアウト。
    注:私の経験では、原文と同じ書式(縦、または横書き)、そして原文に近い字のサイズでプリントアウトした方が、校正作業の効率が上がり、疲労は減る。
  6. プリントアウトの校正 (二回)。
    注:校正するスタッフには、原稿に印字されていない異体字をリストアップし、その他の気づいた問題を特定の用紙に記入するようあらかじめ指示しておくべきである。大量のデータ入力を扱う際、そのような用紙は、後の段階で新たな問題が生じた時や方針の展開があった時に便利である。
  7. 共同のテキスト確認(三回)。これは具体的に何なのかはっきりしない。たぶんテキストの共同研究であろう。
  8. コンピュータ・ファイルのデータ校正。
  9. 第一回のテキスト照合。この段階では、すでに入力されたデータの中から、類似する部分を比較し、必要であればテキストを校正した。類似の部分は鉛筆で用紙の欄に記された。この段階以降、佛光山で入力されたテキストは、場合によって原文から離れることがある。これらの校正はタグとして入力されず、記入されたまま用紙の欄に残るか、あるいは紛失されてしまった。
    注:このような校正をする時には、それをタグの形で入力すべきである。そうすれば後に同じテキストの二つの違うバージョンを、さらに校正リストを自動的に作成できる。タグがなければ、テキストの異同に関する選択は紙の山に埋もれるか、または最初に戻り、調べ直さなくてはならないことになってしまう。
    なお、原文どおりの改行と書式情報をタグの形で保存すべきである。電子テキストになると、たとえ手の加えられた元テキスト、あるいは違う書式になっていても、そのタグがあれば原文の頁番号および行が表示できるので貴重である。
    参照(クロス・リフェレンス)も電子テキストならではの大変便利な機能である。ボタンを押すだけで様々なテキストのなかにある関連部分が表示される。佛光山計画の編集者が禅シリーズを電子化する準備ができた時には、手書きで記したすべての参照を改めて入力しなくてはならない(校正の際に使った校正用紙が紛失されていないとしたらの話だが)。その参照の厳密性は、いうまでもなく編集者の学識に頼るところが大きい。私が佛光山で見たかぎりでは、スタッフは細心の注意を注いでこの作業を行っている印象を受けた。しかし残念なことにスタッフは自分 達の作業が、どれほど後の仕事を助けられるか気づいていなかった。スタッフの目的はただ「よき」テキストを作成して、文献の「真実」を明かすところにあった。
  10. データ全般の形式設定。この段階で佛光山は出版テキストの形式を決めた。印刷版では、原文の問答の問いと答えは、それぞれ改行で区切られ、読みやすくするために現代中国語の句読点が加えられた。各章にタイトルが施され、各伝記や則などは空白で区切られた。出版作業に当って、様々な印が鉛筆で用紙に記された。例えば、各伝記や則の始めと終わりを示す印やテキストの各部分を区切るための印。
    注:印刷テキストと電子テキストが両方とも同じデータに基づいた方が良いという点から、プリントアウトだけを目的とした形式を用いるのはもったいない。むしろ形式を決める時にタグ(SGMLとTEIに従ったタグ付けがベスト)を使用すべきである。そのタグはそれぞれの用途、すなわち印字に、あるいは電子テキストの活用に対応するタグ、を設ける。たとえば、各レベルの章のヘディングを一貫して、タグ付する。そうすれば第一レベルの題のサイズを18ポイントに、第二レベルの題のサイズを14ポイントに、必要に応じて指定できる。タグを特 閧フ目的のため削除したり、プログラムにそれを無視するように命令することは簡単にできる。従来のワープロソフトでやっているように、データの形式を一つだけのソフトに依存させて、レイアウトすることは、印刷目的にしか使用できず、きわめて用途を制約した方法である。最初に苦労をおしまずタグ付けする方がはるかに良い。この作業によって後に他の媒体(CD−ROMなど)にテキストを転載しようとした時、数カ月または数年の時間と費用が節約することができる。
  11. さらに三回の校正による 根本データ・セットの作成。
  12. コンピュータでの根本データ・セットの校正
  13. 第二回の照合と二回の校正。
  14. 不用な情報の消去と原稿の 再訂、そして二回の校正。
  15. 全データ・セットの印字。
  16. 最終照合および校正
  17. 最終的な原稿校正。 私の推測では、この最終的な原稿校正の段階において索引を生成するための情報(人名、地名など)が紙に記入されていた。ちなみに、私が見た出力結果には、印刷版よりもはるかに多くの手書きのメモが記されていた。
    注:普通、校正は別々の二つのグループによって行われる。最初のグループは単に原文と印字された原稿を比較し、漢字の違いを調べる。次のグループは内容に注意しながら校正を行うので、原稿の誤植や疑問点が見つけられる。さらにこのグループは、そのテキスト固有の情報(人名、地名、寺院名、伝記や則、年号、他のテキストの引用、問答など)を容易に把握できる。佛光山ではその情報のいくつかは印刷版のために使われたが、多くの情報はただ校正用紙の上に書かれた鉛筆の印として残っているだけである。そのような情報はできるだけタグと して入力したほうが良い。そうすればレイアウトの作成を自動化するだけでなく、ハイパー・テキスト機能と索引生成の基盤になる。繰り返して述べるが、印刷結果や粗末なデータベースしか考慮しない短期的な方針は多くの貴重な仕事を活かさずに終わってしまう。
  18. 最終的な原稿の整理とイラストの挿入。
  19. 最後の校正。
  20. プリントアウト。


まとめ

佛光山計画の編集過程すべてを網羅できなかったにしても、このケースは印刷版から電子版への過渡期を表す、 典型的な例でもあると感じた。学者による大きな努力が長年にわたってなされたのにも関わらず、その努力のほとんどが手で記された形でしか残っていないことに驚かされた。このような努力の成果が電子テキストの中でタグとして入力されていれば一層活かされただろう。佛光山の禅シリーズの電子版を作成する際、学者たちが鉛筆で書き記したことのほとんどはいずれ入力されなければならない―これらのメモが保存されていることを祈るしかない。
佛光山は 1994年12月に電子版担当のコンピュータ専門家を採用した。しかし、私は良質の電子版を誕生させるには中心に学者をおかなくてはならないことを痛感した。そのような作業は内容に深く関わり、コンピュータ専門家は「どのように」すればよいかを示すことができても「なに」が必要であるのか、そしてそれが「なぜ」必要なのかを把握できないことが多い。不可欠な仕事の大きな部分がすでに体系を欠く手書きの「アナログ」形式でされていたことに驚いた。
既述の努力の成果がいずれデジタル化されることを期待している。そしてその新しいメディアへの転載の苦労の中で、仏光寺の作業に対するアプローチは、先に述べた方向に似た形で展開することも願っている。要はタグ付けである。この類の巨大なプロジェクトは徹底した企画をいっそう要する。同じマスター・データに基づいて作成する印刷版と電子版のために、タグ付けを用いることは不可欠かつ不可避である。マスター・データが多様な情報を含めば含むほど、それは長く使われ、より多くの形式に対応させることができる。
昔の75回転レコードやLPレコードが姿を消したと同じように、カセット・テープやCDもやがては廃れてしまうだろう。大手のレコード会社はマスター・テープが他の多くのメディア、そして数世代にわたって使われることを見通している。同じく、多様な情報を含んだマスター・データはBIG5コード、JISコード、そしてユニコードよりも長く生き残れる。二三十年後には、徹底的にタグ付けされたマスター・データだけが時代遅れにならないで済むのである。長期的な最善策は、印刷結果や使い物にならない漢字コードにこだわった、視野の狭いアプローチを避 ッることである。情報保存のためのタグ付け(そして含蓄的な情報を表に記す)という小さな努力が大きな実を結ぶことになる。それは他のメディアや用途へ転載する際の手間の低減、そして何よりも学問的な価値の増加、使用のいっそうの柔軟性、結果的にはそのデータの長い存続につながるのである。
著者Urs APP
最終更新1995年05月21日