to Home Page
大規模漢文データベース作成のためのガイドライン
ウルス・アップ
1)大規模データベース計画を開始する前に、まず、その分野ですでに行われたことを調査し、その質や欠点を研究しなければならない。プログラマーやデータベース設計者に、もし最初からやり直すことができるとしたら何を変更するかを尋ねることで、多くの教訓が得られる場合が多い。仏教研究の分野では、電子仏教文献推進委員会がこの協力・学習の過程を手助けしようとしている。
これは既に言い古されたことのように聞こえるかも知れないが、実際にはこの分野の主要な計画でさえ、他の場所で何が起こっているか気づいておらず、ときには自分たちの研究機関内のことですら、知らない場合がある。たとえば、電子仏教文献推進委員会によって、先般実現された現地訪問の際、香港大学索引計画に従事している人々は、オスロで行われている同様の努力に気づいていなかったし、中国アカデミーに久しく滞在している学者の一人は、自分が翻訳してきた中国文献に関する重要な資料が彼の研究所のコンピュータに入っていたことを、我々と接触
して始めて知ったのである。
文献の電子版が存在するということ自体は、それほど重要なことではない。データの質、取扱いやすさ、さらに個々の計画に対する適合性が評価されなければならない。
2)データ入力計画は、関係するデータの量とその目的によって分類されなければならない。このようにして、少量のデータと大量のデータ、個人ユーザーや小集団向けのデータと大規模なユーザー集団や研究機関向けのデータといったものを、はっきりと区別しなければならない。本ガイドラインは、多数の繁体字を含み、大量かつ多様なユーザー集団を対象とする大規模入力計画に適用されるものである。
こうした区別がはっきりできないと、データの質や検索方法などに対する要求水準が不十分なものになりかねない。たとえば、スキャナーによる自動(ないし半自動)入力の方法は、データ校正にかなりの時間を費やす用意のある個人ユーザー向けには、非常に役に立ち、また効率的なものである。しかし、大規模な研究機関のデータ入力には、まさにこの同じ方法が、校正にかかる高額費用のために、まったく不十分なものになる。同様に、比較的多くの誤りがあっても気にしないユーザーたちもいるかも知れないが、他のユーザーに配布するデータとしては許され
ない。
3)計画の当初に基本的決定を行い、それらを専門家と討議することは極めて重要である。これらの決定を行う際に、現在及び未来における使用可能性を念頭に置かなければならない。これは、特に、原本の選定、テキスト編集、付注、基本的データ文字(文字のコード化、データ形式、非標準文字の処理など)、それにハード・ソフト環境にあてはまる。こうした問題は、大規模計画の発足当初、すなわち本格的な入力活動が開始される前に、専門家集団によって検討されなければならない。そして、活動計画はその集団全員の一致した支持を得るべきである。
これに失敗した場合、途方もない金銭の無駄使いに終わりかねない。私の知るいくつかの漢文データベースでは、ほとんど計画を練ることなく開始した。ほとんどの場合、それらは特定の場所における数年前のハード・ソフト環境に合わせて設計されたものであった。このために、後になって、現在の要求水準にあわせ、また他の研究機関で使用するためにデータを変換しようとしたとき、自動変換が不可能であったり、変換によってデータが台無しになったりすることに気づいた。事前に計画を練り、専門家に相談することで、こうなることは未然に防げたはずであ
る。もう一つの例をあげよう。入力ないし校正・編集の段階で、データにタグを付けると、データベースの価値を飛躍的に向上させることになる。たとえば、パーリ大蔵経全体から、植物名全部とか地名全部などを捜し出すことが可能になる。これに類したことを後の時点で行おうとすると、新たな大事業になってしまうが、周到な計画を立てることによって、そうした事態をあらかじめ避けることができる。
4)電子文献が国際的なユーザーや多様なハード・ソフト環境を対象としたものである場合、基本的なデータセット(マスター・データセット)は、後に任意の必要とされるコードやフォーマットに自動的に変換できるようになっていなければならない。このマスター・データセットを、最終的なユーザー用データ・セットとは別個のものとして扱うことが重要である。両者は、ちょうど、最高の機能と質が要求される音楽スタジオの録音装置や編集機器が、消費者の再生装置とは全然別であるのと同じである。
漢文テキストに関しては、特に、コード外の文字や、異なる国際基準の扱いかたにおいて、差異が見られる。マスター・データとユーザー・データの区別をしない研究機関では、現在パソコンで使われている低い水準の文字コード(JIS,GB,BIG-5 など。本号所収のウィッテアンン氏の記事参照)を使っているのが常である。先般の現地訪問で訪れた研究機関のうち、マスター・データとユーザー・データを区別していないところは、データの質の問題で苦しんでおり、この問題は、より大きなコード体系が使えるようになるにつれて、より一層深刻化するものと思わ
黷驕B賢明にも、この区別を既に行っていたのは、台湾国立大学と香港科学技術国立大学(両者ともマスター・データにCCCIIを使い、ユーザー・データにはBIG-5を使っていた)、それに中国社会科学アカデミー(マスター・データは独自の四万五千字のコードを使い、ユーザー・データには様々なフォーマットを用いていた)である。
音楽業界におけるマスター・テープのように、マスター・データは、現在及び未来における、多くの異なる環境で使えるような質を持ったものでなければならない。日本、韓国、中国でこれまでに入力されてきた漢文テキストデータの大部分は、ウォークマンでコンサートを録音したのと同じくらいの寿命しかないであろう。
5)こうした可変性と適応性を確保するためには、マスター・データが最大限の情報を含んでいなければならない。これは、データの質にとって、重要な要因である。中国、韓国、日本のデータの場合(あるいは、標準化されていない文字や、いくつかの基準が競合しているような、あらゆるテキストデータについても同様であるが)、最上の構造と、最大の文字数、それに最高の可変性を持つ文字基準を使用しなければならない。現在のところ、規格化された漢字コードで、マスター・データ用として最上のものはCCCIIコードである(ウィッテアン氏の記事参照)。
アれは、ぎこちない3バイト形式であり、高価であり(拡張カード、他のコードへの変換プログラム、それに徹底した説明書で、約4000ドル)、その使用者は非常に小数であるにもかかわらず、このコードを採用することは、現在のところ、大規模な繁体字文献のマスター・データを作成するためには、もっとも賢明な方法であると思われる。
略字と正字が混在していたり、全体の文字数が少ない文字コード(JIS, GB など)で入力されたデータは、より精巧なコードへは自動的に変換することはできない。たとえば、「弁」という文字は自動的に変換することができない。なぜなら、はたしてこれに対応するのが辨なのか、辧なのか、辮なのか、あるいはさらに他の異体なのか、機械は判断のしようがないからである。しかし、逆の変換は容易である。同じことが、他の異体字についても言える。目指さねばならないのは、こうした情報をも電子テキストのなかに可能なかぎり保存することである。日本では
、JISコードにない文字は、空白にしたり、簡単化された他の文字を入力することがしばしばある(たとえば、東京国文学資料館の物語CD-ROM)。このようなデータは、可変性が非常に悪く、従って、たとえ入力されたテキストが非常に正確なものであったとしても、質の悪いデータといわねばならない。
6)もし印刷原本に多様な字体が存在する場合は、電子文献においても、それらをそっくりそのまま再現することに力を尽くすべきである。ただ、これは常に可能であるとはかぎらないし、賢明なやり方ともいえない。たとえば、いくつかの異体字は普通に受け入れられている(禪と襌のように、部首の形が違うもの)。ただし、こうした判断のすべては、文書化し、それを厳守しなければならない。明らかに、CCCIIのようなマスター・データのコードは、こうした異体字の処理をより簡単なものにする。というのは、CCCIIは異体字を本字と関連づけ、必要になれば、
片方から他方へと変換することを可能にしてくれるからである。もし、印刷テキストが一つの文字に対していくつかの形体を含んでいる場合、何等かの形で、これらの違いを電子テキストで再現しなければならない。入力及び校正の過程で、こうした異体字の記録をしっかり取っておけば、後で、一つの文字あるいは用語に対する異体字全部を一括して自動的に検索するできるような検索モジュールを作成することも、思いのままである。電子テキストの作成者は、現在及び未来のユーザーは、想像も予見もできないような関心を持つかもしれないこと、そしてそうした
関心をデータ作成者が制限してしまってはならないということを、心に留めておくべきである。むしろ、基本となるデータセットには、音楽のマスター・レコーディングと全く同様、最大限の信頼性が確保されなければならない。
香港中国大学の索引シリーズ(Big-5 のフォーマットで保存されており、マスター・データとユーザー・データの区別はない)の場合、異体字は規格枠内の字体へと削減され、印刷字形でのみリストされている。電子テキストには、ただ規格字体が使用されているだけである。将来、多くの異体字を含むもっと大きなコード体系が流通するようになったとき、そうしたコードに変換できるマスター・データは存在しないことになり、情報を縮小するためになされた多くの仕事が、今度は逆の方向で繰り返されなければならないことになるだろう。
これとは対照的に、香港科学技術大学では、書籍に見える通りに、中華人民共和国の書籍情報は簡体字で、台湾の情報は繁体字で入力している。そこで、検索モジュールでは、簡体字は異体字として扱うことによって、印刷された文字の形体いかんにかかわらず、ユーザーが情報を見いだせるようになっている。
7)電子テキストでは、機械は人間より遥かに高い厳密さで検索するために、データの正確さが何よりも重要である。機械が見つけだすことができるのは、データセットに含まれているものに限られ、また、ざっと目を通すなどといったことは、到底できないのが普通である。従って、一般に、誤植はただ偶然によってのみ発見されるものであって、探そうとして見つかるものではない。こうしたことから、ユーザーによるデータの修正を期待することはできない。大規模なデータセットの場合、ユーザーはしばしば見つけだせる情報の量の多さに目を奪われがちである
が、テキストにないものは何かに関しても、正確な情報が安心して利用できるようにしなければならない。
誤入力は、そうした情報を得ることの妨げになる。データの誤植は充全な入力方法とデータ校正の過程によって、消去することができる。データの正確さは、通常、相互に関連した様々の要素によって決る。すなわち、原資料の質と信頼性、入力方法の選択、作業者の教育、入力ガイドラインの質(文字の同異の定義)、文字コードの大きさ、参考資料の質、データ校正の過程と作業員、ガイドライン適用の一貫性、入力と校正記録の質、問題点を認めることに対する作業者の誠実さ、などである。
優れた質のマスター・データというものは、ただ単に大量の情報を含む充分なコード(そのゆえに優れた可変性を持つことになる)で作られ、印刷原本を歪曲しないというだけであってはならない。それはまた、誤植の憂いがないようにしなければならない。アルファベットによるテキストの場合、同じテキストを二人のタイピストによって入力し、タイプされたテキストを機械で比較することによって、非常によい結果を得ることができる。しかし、高速でタイプするタイピストたちは、誤って、隣接する同一のキーを押すことがときどきあり、これは全面的に満足
のゆく方法とはいえない。このために、しっかりした誤植校正の過程が必須となる。このとき、厳密なガイドラインが入力と校正にあたる人々に提示されねばならない。また、彼等は厳密な質管理の過程において、訓練されねばならない。すべての個人的判断は文書化し、承認を受け、一貫して適用されねばならない。
8)チームワークと、種々の基本的問題をチームで討議することによって、データベースの全体的価値が相当に改善されることがよくある。基本的問題というのは、たとえば、原本として使う印刷文献の選択、学術的解説や注釈が存在するかどうか、印刷原本に対する参考書、対象とするユーザー像の設定、必要な検索ツール、必要なハードとソフトの質及び値段、将来のハード・ソフト環境の展望、ハードとソフトの使いやすさ、文字変換ユーティリティの多様さと質、データの価格、データの正確さのレベル、データ可変性のレベル、データ構造およびその柔軟性(
フォーマットの適応性など)、標準化のレベル、などである。
「入力を開始するまえに、このことを考えてさえいたら……」という嘆きを、あまりにも多く耳にしてきた。経験的に、データベース計画の運営においては、個人が決定するより、討議に基づいてグループで決定するほうが、よいことが多いように思う。学者はそうした決定を技術者やプログラマーに任せることのないよう、注意しなければならない。現地訪問の際、多年にわたって取り組んできたデータベースを、実際には一度も使ったことがない、と自ら認めるプログラマーたちに出会った。
9)データベースはユーザーのために作成されるものである。従って、ユーザの希望や、作業環境、想定される作業習慣といったものを、慎重に研究し、尊重しなければならない。たとえば、ほとんどのユーザーは、論文や本を執筆しながら検索する。従って、ワープロ・ソフトと同時にデータベースが使えるようになっていなければならない。また、あらゆる大規模文献データベースは、ユーザーがテキスト本体にノートやタグを付けられるようにすべきである。そうしたノートもまた、検索や印刷でき(テキストと一緒に、あるいは単独に)、位置のタグとともに別
のファイルとして保存でき、電子文献が改訂されて新しい版になったときにも、移植できるようになっているべきである。検索機能もユーザーの多様な必要性に適応したものでなければならない。従って、それはガチガチに固定されたものではなく、柔軟で、ユーザーの多様な好み(ちょうどワープロ・ソフトのように)に適応できるものでなければならない。検索結果は画面上で見ることも、印刷することもできるべきであり、ユーザーの希望に応じて、様々なフォーマットでファイルに保存できるべきである。データベースの主要目的は情報検索であり、そうした検
索はユーザーに対する多様な選択とともに、慎重に計画されるべきである。
入力に多年の作業を要するような計画においては、入力が進行している最中でも、プログラマーたちに検索ソフトの試用版を色々と作成させ、学者や想定されるユーザーたちにそれを評価してもらわなければならない。必要となれば、データ構造の決定を再評価しなければならない。**重要なソフトの決定には、ユーザーが発言権を持つべきであり、プログラマーたちは、ユーザーが試用版を評価するのを助け、また可能な選択肢を彼等に話すことによって、ユーザーが自分たちの希望を明確化できるよう手助けするべきである。
Author:Urs App
Last updated: 95/04/23