紙の発明から、およそ二千年前、何人かの中国人が、紙が文字の記録に使えると気づくまで、相当な時間の経過が必要であった。数世紀後、帝国における記録媒体として、紙がすでに主流となることなど、彼らには思いも及ばぬことであった。紙は七世紀にインドにわたるが、インド人たちが新しい媒体の潜在能力を認識するには、およそ五百年を要した。
二十世紀に、初めてヨーロッパ人が紙を手工業によって生産しはじめたとき、彼らはこれを羊皮紙の安価な代用品だと考えていたが、グーテンベルグの発明によって、紙という媒体は、誰も予期せぬ方向へと展開していった。1800年には、ドイツにおける紙の総生産量は、年間一万五千トンであったが、1900年には、すでに八十万トンになり、さらに四半世紀の後には、年間二百万トンに達していた。聞くところでは、今ではカリフォルニア大学だけで、九キロメートルの書棚に相当する印刷物を、年々、作り出している。
もし、紙の歴史が驚嘆の連続であるなら、いまこのときに生まれたばかりの、新しい媒体については、遥かに大きな驚嘆となることを、あらかじめ予見できる。わずかに数十年前には、デジタル記録とデジタル処理は、ただ、いくばくかの数学者とその他の数字マニアの関心事に過ぎないと思われていた。
今日、それらは驚くほど様々な方面で、すでに実用化されている。たとえば、心臓から発する信号を処理して、必要なときに電流を心臓へと送る装置(心臓のペースメーカー)や、音声の記録と再生(コンパクトディスク)、映画の恐龍を製作・表示すること(デジタル画像処理)、それにある禪師の全語録の索引を作成すること(デジタル文献処理)。
紙の使用が仏教やキリスト教に与えた影響を判断しようと企てるだけで、心はたじろぐ。まして、デジタル媒体の場合、どこにゆかんとしているかは言うまでもなく、我々がいまどこに立っているのかを判断することさえ困難である。電子達摩第三号で紹介した概観が示しているように、仏教の文献あるいは画像のデジタル化を目指した多くの計画が、すでに進行中である。
しかし、もっとも高度の計画でさえ、ほとんど印刷テキストの模倣ないし拡張の域を超えるものではなく、ただ、検索能力が改良され、より高速に処理できるに過ぎず、最善の場合でも、なんらかのハイパーテキストあるいはビデオリンクが可能となっているに過ぎない。それがすべてなのか、と読者は反問するかもしれない。それは時宜にかなっている――しかし、この「時」は、古代中国人が、初めて紙の上にいくつかの文字を書いた「時」に匹敵するものである。
伝達するためには、まず情報を何らかの方法でコード化する必要がある。コード化には、アルファベットとか、中国の皇帝、秦の始黄帝によって制定された標準的な文字様式や、コンピュータのアスキーコードのような、一定の固定した約束事が必要となる。一般論として、コードは定義の仕方と、単純性において、すぐれていればいるほど、実際の通信において役に立つことが判明すると言ってよい。
オンとオフ、あるいは1と0しか使わないという、デジタル的なコード化の持つ単純性そのものが、通信における巨大な潜在的可能性を説明してくれる。品物やサービスにとって、貨幣がすばらしい交換手段であるのに酷似して、デジタル的にコード化された情報は、情報交換において、極めて柔軟な手段となる。音声や、静止画像と動画、テキストなどは、すべてデジタルの形で保存し、通信することができる。「マルチメディア(多媒体)」という用語は、この意味では誤った名前の付けかたである。なぜなら、そのもっとも顕著な特徴は、ただ一つのメディア i媒体)、すなわちデジタル的媒体しか存在しないという点にあるからである。
新しいコードの組織は、類似の方向に展開してゆく傾向がある。以下において、私たちの誰もがすでに馴染んでいるコード、すなわち印刷物のコードの発展過程を検討しつつ、デジタルテキストのコードという、新しく生まれたばかりのコードとの、いくつかの類似性を指摘したい。
手書き媒体から印刷媒体への移行、さらに現在では印刷媒体からデジタル媒体への移行は、多くの重要な変化を生じた。800年前後に書かれた、有名な『ケルズの本』は、コーデックス(古写本)、すなわち綴じられた本の好例である。しかし、我々が本というときにイメージする特徴の多くが、これには欠落している。たとえば、写筆者が誰か、飾画家が誰かも分からないし、この本がどこで製作されたのかも分からない(アイルランドのケルズというのは、推測に過ぎない)。
The concordance table (four gospels) of a handwritten bible
この本の冒頭には、「コーデックス」、すなわち用語索引がついているが、そこに付せられた番号は、テキストについてないので、余り役に立たない。ページ番号も全くなく、美しい手書きではあるのだが、見なれない方法でコード化されているために、読み解くのは非常に困難である。省略は、様々な記号で表示されているし、語と語の間の空白はないことが多いし、Uや Vといった文字は区別されておらず、大文字・小文字は規則性なく使われ、句読点は馴染みのないものであり、文の順序はときどき逆になっている等々。
Examples of some common manuscript abbreviation codes
このような省略記号(=Iesum)に注意してほしい。
『ケルズの本』より
本に見られる字母は、手書き文字に酷似している。グーテンベルグないしその同時代人たちは、手書き文字に見えるような本を作成したかった(17頁参照)。このために、彼らはただ単純に手書きコードを用いたのである。ちょうど、今日、ほとんどのコンピュータユーザーが、デジタルテキストを処理する際、植字工の観点や印刷業者のコードを用いているように。
今日の印刷コードの基礎を作り出すためには、たっぷり百年以上かかった。まず、基本的なコード要素(文字)を整理し、グーテンベルグの発明の中枢をなす手動の字母鋳造装置によって作成しなければならなかった。グーテンベルグは、本質的に手書き文字を模倣したので、リガチュア(合字)や省略コードなど、多くの特別な要素を利用した。グーテンベルグの印刷コードの完全なセットは、最初、300の異なる字母からなっていた。次の図は、基本文字(上二段)、リガチュア(中二段)、句読点など(下段)からなる、グーテンベルグの厖大な文字セットのご く一部を示したものである。
印刷術は急速にヨーロッパ全体で使われるようになってまもなく、最初は箇々の会社のなかで、次に国内および国際的に、基本的な要素の単純化と統一化の必要性が痛感されるようになった。やがて印刷業者たちはグーテンベルグの文字セットの四分の一の文字で、やりくりできるようになった。
Some characters from the world's oldest moveable-type book (〜1234/41)
極東においても、基本的要素(漢字)を標準化する努力には、長い歴史がある。古代より、政府当局はそれぞれ、定期的に標準文字のセットを改訂した。近代においては、政府のほかに、IBM や 富士通 のような会社が、コンピュータ用に、独自の文字セットを定義している。
五つの大企業によって定義された文字セットは、事実上、台湾における標準となってさえいる。いわゆるビッグファイブ(Big-Five)コードである。グーテンベルグの後継者たちが、会社や国家の境界を超えて、次第に文字数を減らし、標準化していったように、今日、日本、中国、韓国の文字セットを「統一化」しようとする努力が見られる。
この努力は、ISO 10464 標準(あるいはその下位セットであるユニコード Unicode として)知られているが、全世界で使用されているほとんどの文字を統一的にコード化しようとする試みである。漢字の統一化は、特に緊急を要する課題である。なぜなら、国際的コードの不統一からくる混乱は、これらの地域全体を、アルファベット使用圏にくらべて、非常に不利な状態に立たせているからである。(漢字に使用されている種々のコードについては、電子達摩第三号参照)
しかし、手書きの慣習に固執しないこと(グーテンベルグのリガチュアを廃止するというような)は、比較的単純な仕事であるのに対して、漢字に関するそれは、遥かに複雑である。
たとえば、海印寺の高麗大蔵経の版木をコンピュータに入力する際、最初の難関となるのは、手で刻まれた漢字の字体である。電子媒体へ移すにあたって、どれほどの統一化と単純化が必要となるのだろうか。異体字は、どのように処理したらよいのだろうか。どのような字体が本質的なのか、どれが研究者の関心を引くものなのか、捨て去っても後悔することにならないのはどれなのか。
単語や文、節などといった、テキストのより大きな単位のコードについてもまた、最初は発明されなければならなかった。空白にかぎっていうと、ギリシャのテキストは、単語間あるいは文章間に空白を入れないのが普通であるのに対し、ローマの碑文ではときおり単語の間を点で区切っている。しかし、通常のテキストでは、単語の境界は明示されてない。
七世紀と八世紀において、何人かの拙劣なラテン語の書き手が、ちょうど外国人が日本語のテキストに空白を入れるように、単語を区切ることを始めた。
ヨーロッパでは、空白の導入は、十世紀頃から黙読が勃興するのに決定的な役割を果たしたが、単語間の空白が徹底するのは、十七世紀末以降である。現在、読み書きのために、世界で普通に使われているコードの多くは、ごく最近に作られたものである。たとえば、強調符、引用符、ダッシュなどは、すべて十七世紀に作られた。
テキストの基本的単位をコード化することから、文書の構成要素をコード化することに目を移すと、同様の発展があったことに気づく。行のような、非常に基本的な配列の工夫でさえ、発明し、完全なものに仕上げなければならなかった。
行の発明の前:ウルク(メソポタミア)、紀元前4000年ごろの例。
初期の印刷本は、通常、テキストに関する註釈が付せられているが、まだ目次のような標準的特徴は備えていない。印刷文書の標準的要素が作り出されるまでには時間を要したのであり、新しい慣習はゆっくりと姿を現した。すなわち、本のカバー(最も早いのは1833年であるが、広告用として最初に使われたのは1906年)、ヘッダー、フッター、脚注、章末注、挿絵、図表、参考書目、付録などである。予測されるように、こうした要素は、今また、ここで論じたい電子文献のためのコード化体系である、標準的汎用印づけ言語(SGML)の一部をなしてい
驕B
文書を処理し、その様々な要素を扱うためには、要素の全体的なつながり具合いが確定されなければならない。ページ番号づけは、16世紀中に発達したが、まだ広く用いられるには至らなかった。次に目次や図版一覧、他文献参照、文献内参照、注釈、引用などが続いた。
ある場合には、特に多くの異なる版を持つテキストの場合には、多くの版(異なる言語で書かれている場合も含めて)においても文章を検索できるように、別の種類の対応付けが開発された。聖書の場合は章および詩の番号、ギリシャ古典の場合は通し番号、当研究所の一字索引の場合は、大正大蔵の番号といった具合いである。
ひとたびこうした順序づけの効用が浸透するや、もはやこれなしにはやってゆくことはほとんど不可能であり、より古い資料にも順序づけのコードを付けるようになった(写本の右葉・左葉番号、文書番号)。
<text> contains a single text of any kind, whether unitary or composite, for example a poem or drama, a collection of essays, a novel, a dictionary, or a corpus sample.
本の索引類は、こうした内的対応を極限まで推し進める。
このような「対応」は、また、様々な経路ないし結合関係を含んでいる。ある話題を研究しているとき、我々は普通、印刷文書に埋め込まれている結合関係に従う。それは、同じ文書のなかの場所を示す、図版参照や同一文書内参照や、他の一次および二次文献を指示する指標などのような、基本的な結合関係である。
ときおり、そうした結合関係は文書のレイアウトに反映されていることさえある(異本を対照的に配置したり、注を同一ページ下部に置くような場合)。別の結合関係としては、文献の様々な時代区分(文献の版とか歴史地図など)があるし、あるいは文献に関するその他の情報も考えられる。百科辞典は、基本的結合関係の使用例として、格好のものである。注番号もまた、一つの事柄をより以上の情報と結合する例である。
伝統的に、書物はほとんどの場合、その最初の単語か、先に見た『ケルズの本』のように、ある種のニックネームによって知られている。著者、訳者、写筆者、あるいは挿絵家は、ほとんどその名を挙げられることがない。一つ一つの本が、独自のものであった。印刷術によってはじめて、刊行物の洪水のなかに、一つの作品を位置づける必要が生じてきた。ヨーロッパでは、奥付はこの目的に対して、限定された形でしか役に立たなかった。中国の場合に比べて、文書製作に関する本質的な情報を注記することに関して、ヨーロッパ人は遥かに無頓着であった。
活字によって印刷された最初の奧書は、1457年に現れており、書名と印刷者名を伝えている。本の対応づけやコード化は、徐々に発展したが、1470年以降になってようやく背表紙が一般化した。ゆうに百年以上の試行錯誤をかけて、我々が現在知っている表題ページは、徐々に発達したのであった。
次の一連の写真において、書名と年代から、書名、著者名、著者の肖像へ、さらには発行場所と年代とともに印刷者の名前、そして遂に1594年には、現在の表題ページと近いものになっている。
Bocaccioのデカメロネの表紙( 1527)
次第に、本に関する基本的情報を保存するための効果的な対応づけの方法が、とりわけ図書館で、開発された。著者、編者、書名、発行所、内容のキーワード、版権所有者、ISBN番号、その他、現在の本の奥ずけに見られるものが開発されたのである。本の本体そのもののほかにも、さまざまなものが、本について学ぶことを助けるために、作り出された。すなわち、表紙カバー、ポスター、カタログ、刊行案内パンフレット、文献一覧、書籍内容梗概、見出し語データベースなどである。
こうした対応づけの方法の開発と並行して、図書館、書店、展示即売会、古書店などの、貯蔵と頒布のための施設が開発された。文献を手にするには、二つの基本的な場合がある。一つはあなたが文献のところへ見に行く場合であり、もう一つは文献のほうがあなたのところへやって来る場合である。媒体は前者から後者へと移行する傾向にある。この傾向は、現今の電子文献革命において、特に著しい。
中央アジアの敦煌洞窟で発見された禅文献は、これを証する格好の例となる。最初、原本は、その現場である砂漠の洞窟で、ひと握りの探検家の手によって調査された。次に、僅かの恵まれた研究者たちだけが、それを見るためにパリ、ロンドン、北京などに行くことが許された。次の段階では、マイクロフィルムが撮られ、小数の研究所がそれを利用できるようになった。このようにして、敦煌文献は、より身近になり、門戸はかなり広くなった。
今日では、これらの文献は、影印の形で出版されつつあると同時に、コピー機で簡単に複写できる活字のテキストとしても流通するようになり、恵まれた研究所で勉強する学生の手にも入るようになっている。次の段階では、こうしたテキストはデジタル文書として利用できるようになり、電話線を通じて手に入れることができるようになるだろう。かくして、これらの文書は、アフリカかポリネシアかどこかの卓上コンピュータに、ほとんど瞬時にしてその姿を現すことができ、しかもユーザーはその元の文献データベースがどこにあるか、その所在さえ知らない
ナすむかもしれない。
情報を手にすることができる人々の数が、次第に増加していくという傾向は、デジタル文書とともに、その歩調を加速しつつ、継続してゆくであろう。デジタル媒体は、いくつかの弱点を持っている。たとえば、山積みにされた本のページを、すばやく繰るというような操作ができない。しかし、本の主要な利点であるこの物理的な性質もまた、限界を持っている。すなわち、収納のための書棚のスペースは高くつくし、本のある当の場所でなければ利用できず、一回につき一人しか利用できない等である。デジタル文書には、こうした制約はなく、多くの新しい可
\性に道を開く(その大部分は、まだ発見されるのを待っている状態である)。新しいコードが作り出されようとしており、その最初の形のいくつか(SGMLと TEI)については、本号のなかで論じられている。
ギリシャのアルファベットや、デジタルコードのような、コード化における革命的進歩を前にしたとき、人々はたじろぐことが多い。たとえば、プラトンは、書くことに対して、ソクラテスの反対にあった。その理由は、とりわけ、「記憶を弱める」からであった。というのも、それは「見なれぬ記号の形をした外的な支えに頼」って、「それを理解できない人々」の間をうろつきまわり、著者が自らの見解を説明したり弁護したりすることを阻害するからである(パイドロス)。 写筆者が、新しい印刷術は手書きを脅かすものだと錯覚した15世紀以来、印刷術に
対する無数の抗弁が記録されている。
ヨーロッパの印刷屋の最初の絵である、『ダンスマカブル』(1499-1500)よりの木版に、「鬼の仕事をする」印刷屋が悪魔に逮捕される。
今日、ふたたび、デジタル技術に恐ろしい危険を感じている多くの人々がいる。たとえば、本の消滅というような――。もちろん、本は生き残る。ちょうど手書きがそうであったように。しかし、その目の前に、いま、有力な同類が急浮上しつつある。印刷された紙の可能性を遥かに超える、根本的に新しい種類のコード化を可能にする物理的な形態を持った同類である。
より複雑なコード化は、予見することのできなかった可能性を開く。それは、印刷文書の歴史が示している。初めて新聞が印刷されたのは1597年、グーテンベルグの死後、百五十年たってからであり、学術的定期刊行物を刊行するという発想が生まれたのは、グーテンベルグなきあと二百年たってからだった。今後の数百年において、遥かに大量かつ重要な可能性が、デジタル媒体によって開かれることを疑う理由は、どこにもないのである。
Part of Gutenberg's character set
Some pairs of Chinese characters that are unified in Unicode
単語
紀元前145年、ギリシャ
要素
Top left: two / top right: temple, house / center: sheep / asterisk: god / bottom: Inanna
<front> contains any prefatory matter (headers, title page, prefaces, dedications, etc.) found before the start of the text proper
<body> contains the whole body of a single unitary text, excluding any front or back matter.
<back> contains any appendixes, etc. following the main part of a text
<div> contains a subdivision of the front, body, or back of a text
<div0> contains the largest possible subdivision of the body of a text
<div1> contains a first-level subdivision of the front, body, or back of a text (the largest, if
書物
展望
Author:Urs APP
Last updated: 95/05/03