NACSIS-CAT総合目録における中国書目録 2001/10/05 宮澤 彰(国立情報学研究所実証研究センター) 1 はじめに 国立情報学研究所のNACSIS-CAT総合目録では、1985年のサービス開始以来、中国語、 韓国・朝鮮語の資料の取り扱いが「暫定的」にしかできず、問題となっていたが、2000年 1月より本格的な多言語システムの運用を開始し(1999年4月より試行)、その最初の実装 として中国語資料の本格的な取り扱いを始めた。 ここでは、NACSIS-CATの多言語化、中国語資料の目録としての取り扱い方などの、考え 方を紹介する。 2 技術的背景 目録と言語の関係は、古く、また複雑でもある。われわれは日本語以外の言語について、 記述は原語でおこない、原綴を原則とし、記述以外(あれば主題など)は通常日本語で行 う。(注記は内容と場合により、記述的にもそうでなくもあつかわれる)。しかし、この原 則のほかに、翻字を行うことがある。これは、特にタイプライターを常用してきた欧米の 図書館では、一般的な習慣である。さらに、記述そのものを翻訳してしまうということも、 場合によっては行われている。(例えば、漢字ハングル交じりの韓国語資料で、ハングル部 分を日本語に意訳する例がある。逆に韓国での日本語資料の扱いにも同様の例がある)。 目録のデータベース化がもっとも早く行われた米国で、ASCIIやEBCDICにない文字(主 としてフランス語のアクサンや、ドイツ語のウムラウトなど)の扱いは初期に問題になっ た。米国のコンピュータ業界では子の問題に対する反応は鈍く、LC(米国議会図書館)の MARCにおける独自コードや、OCLCの専用端末等が対応してきた。とはいえ、70年代、 80年代では、ダイアクリティカルマーク`eのように独立に表示されるものが普通で、入力 もこのように行っていた。このため、`eをe`といれる誤りなども発生している。 米国での目録における、文字の扱いは、比較的早く、幾つかの言語を除いて翻字で対応す る方針が確立されている。原綴を使用するものとしては、JACKPHYとよばれることもあ る日本語、アラビア語、中国語、韓国・朝鮮語、ペルシャ語、ヘブライ語、イディッシュ があげられた。これらの言語を扱うデータベース化もRLG(Research libraries Group) の主導で80年代初期に行われ、独自のコード(ヘブライ、アラビア文字コードについては その後ISOTC46で標準となったが)、独自の専用端末を使うシステムが作られた.中国語、 日本語、韓国・朝鮮語(CJKと総称される)用には台湾のCCCIIと呼ばれるコードをベー スにし、二百数十のキーを持つ独自の部首入力方式を使う専用端末(台湾製のワープロを ベースにしたもの)が開発された。 米国のこれらのシステムは米国内では現在でも使用され、かなりのデータベースも蓄積さ れているが、各図書館のシステムでは自由に使えるようにはなっていない。例えばRLGの 端末では漢字が表示できるが、ローカルシステムではローマ字部分のみの表示というよう な場合が多い。結局、これらの文字コードや端末が特殊装置に位置づけられ、コンピュー タ業界のサポートがなかったため、コストも高く、ローカルシステムでは実装されなかっ た。 一方NACSIS-CATは、JIS X0208およびJIS X0201をしようする日本語用の文字コード 環境でスタートしたため、(日本語用)漢字の使用には(おおむね)問題がなかったが、欧 文用ダイアクリティカルマークの使用に問題があった。この問題を解決するために導入し たのが、拡張文字EXCで、ラテンアルファベットにダイアクリティカルマークを組み合わ せたものを中心に、691文字をネットワークシステムN-1で定めた。これらの文字は実行 上、各社の日本語環境の外字処理機能を使ってインプリメントされた。この結果、西欧諸 語と日本語については一応処理が可能となったが、中国語、韓国語、及び現代ロシア語を 除くキリル文字を使用する言語、その他アジア諸文字の問題は残った。NACSIS-CATの入 力基準では、中国語資料について「当面」日本語扱い、又は翻字で入力してもよい、とい うようになっていた。韓国・朝鮮語資料もハングルを扱えないため、「当面」日本語への翻 訳形、又は翻字で入力してもよいことになっていた。(現在、韓国・朝鮮語の取り扱い案が 公表されている)。 90年代に入り、ISO10646UCSが決まり、実用化が徐々にすすむにつれ、これを使用した 多言語化が可能な環境が整ってきた。現在欧米の図書館システムではUNICODEを利用し た多言語対応というシステムが出はじめている。NACSIS-CATではオープンシステムに対 応する新CATシステムの中で多言語化に取り組むこととし、その最初の実現として中国語 資料から始めた。これは、これまで対応できなかった言語のうちで、日本の大学図書館が 最も多く所蔵しているためである。 3 新CATと多言語化 新CATは、NACSIS-CATとそれを利用する図書館システムを、現在のネットワークとオ ープンシステムに対応したシステムとするために開発された、サーバシステム及びプロト コルである。新CAT化は、データベース部分の切り離し、新プロトコルCATPの設計、 CATPサーバの開発という一連の計画として行われてきた。多言語化も、この一環として当 初から設計に入れられた。ただし、98年4月に稼動した新CATシステムでは多言語化は行 われず、2000年1月からのシステムで運用化された。性能上の問題から、新しいハードウ ェアの導入を待ったためである。 データベースはUCS化して格納されている。データベースとCATPサーバとの間では、デ ータはUCSでやりとりされる。CATPサーバと図書館側のクライアントの間のやり取りを 規定するCATPプロトコルには、データの文字コードを指定する方法が規定されており、 “JIS7”を指定すると、従来どおりのJISコード+EXCでデータが送られる。この指定を 変えることにより、たとえば中国の標準コード(簡体字)GB2312でデータを送受できる。 もちろん、クライアントが対応できれば、UCSコードでデータを送受してもよい。 このようにすると当然、そのコードで表せない文字もデータの中に出てくる。例えば、簡 体字はJISコードの中に(あまり)ない。これらの文字をJISで送受するときは、 NACSIS-CATの外字と同じように◆U4F20◆という文字列となる。これは、GBコードで 送受する場合に、GBの外字となる繁体字や、日本の新字体も同様である。 多言語対応のために、レコードフォーマットは一点だけ修正された。ヨミフィールドに加 えて、「その他のヨミ」フィールドが新設されたことである。タイトルや著者名など、従来 読みフィールドのあった部分にはすべて追加されている。このフィールドには中国語の場 合、ピンインを入れる。 システム的な変更点でもっとも大きいのは、漢字統合インデックスである。従来のシステ ムでは「文芸春秋」と「文藝春秋」は区別され、検索しても出てこなかった。(実際のシス テムでは「文芸春秋」で検索しても出てくるが、これはその他タイトルVTのフィ−ルドに 新字体の「文芸春秋」が記録されているためで、これがなければ出てこない)。多言語対応 システムでは、「芸」と「藝」さらに中国の簡体字の「ゲイ」もグループ化し、インデック ス上では一つの文字にする。さらに、検索キーにも同じ処理をほどこしてマッチングをと るため、これらのどの文字で検索しても出てくる。もちろん記述のフィールドではもとの 文字が保持されており、表示はもとの文字だけで行われる。 このようにしたのは、中国の本では表紙とタイトルページとで異なる字体を使っているな どの例が多く、いちいちVTを作ることは煩雑で無理があると考えたためである。 細かく言えば、異体字関係は言語や時代に依存する。「芸」は現代日本語では「藝」の異体 字であるが、もともと「ウン」という別の文字であり、中国語では当然区別して使われて いる。また、「叶」は現代中国語では「葉」の簡体字として使われるが、日本語では全くの 別字と考えられる。今回の漢字統合インデックスは、これらすべてを取り込んで、広く統 合する方向で作成した。このため、検索時のごみが出る可能性はある。例えば、「机上」と 「機上」は同じインデックスとなる。(現代中国語で机は機の簡体字)。もし「機上辞典」 という本があれば、「机上辞典」をひいたときにごみとして出てきてしまう。 現在までのところ、このようなごみは、非常に困るというレベルではないというのが結論 のようである。その問題よりは、もっと単純なレベルでの統合インデックスの作成時の誤 りの方が問題が大きい。統合インデックスの再作成は、多大な時間を要する作業であるた め、時期を見て次の版に修正する予定である。 新CATシステムでは、図書館側にCATPクライアントシステムが必要となる。現在のとこ ろ情報学研究所のWebUIP(UTF8対応)、他富士通のクライアント、筑波大学近藤氏作成 のクライアントなどがある。 4 「中国語資料の取扱いについて」 システム上の変更だけでは、中国語資料の目録作成には不十分である。目録情報の基準で は、これまで、中国語資料については前述のように、当面の扱いしか示していなかった。 これを、全面的に見直して多言語目録対応の第一歩としての基準を作成するため、1995年 秋から中国語資料データベース化検討WGを、センターの総合目録小委員会の下に設け、 98年まで検討して、「中国語資料の取扱い」(http://www.nii.ac.jp/CAT-ILL/INFO/chi/an/) を作成している。以下、中国語資料のNACSIS-CATでの扱いについて、この資料を中心に 述べる。 最初に決められたのが、適用する目録規則である。中国や、台湾の目録規則等を参照した が、結局日本目録規則NCR87改訂版を適用することになった。ただし、例外的に中国の目 録規則を適用する場合があるとしている。原則として適用する規則を日本目録規則とした のは、今後の対象言語の拡大を考えると、その都度別の目録規則を必要とするようになる ことをさけたかったためである。例外は、China MARCからの流用入力時に、目録規則の 違いによって、内容を調整するのに無駄な労力を使わなければならないケースを救うため にいれられた。ただし、現在のところ、この例外に明確にあたる規定はない。 目録用文字セットは、UCSとなる。ただし、特殊文字、記号についてはJIS X 0208に含ま れている範囲のみを使用する。これは、UCSに含まれるハートマークその他の記号を使用 しないようにするということである。主として、日本のほとんどのコンピュータで使われ ていない記号類は、さけるという理由である。また、各国MARC類もこれらの文字は使わ ないため、データの互換性を高めるという理由である。また、各国MARC類もこれらの文 字は使わないため、データの互換性を高めるという理由もある。また、EXCはすべてUCS 内の文字で表される。EXCのうち、合成や、上付き、下付きについては角括弧に入れて注 記するという方式に変更する。(AACR2方式) 記述部分の漢字は、繁体字、簡体字、新字体等の字体を区別する。ただし、JIS X0208の 字体の包摂基準で包摂されるものはこれを区別しない。このため、UCSで別の文字となっ ているものでも、包摂によって同一文字とされる場合がある。 システムのところで述べたように、ピンインは「その他のヨミ」フィールドに記録し、必 須ではなくオプションである。議論はあったが、日本の多くの大学図書館ではピンインを 必須とされても入力できないという事情による。 ピンインはオプションであるが、ヨミは必須となっている。このため、「中国語資料の取扱 いについて」のかなりの部分は、ヨミの表記及び分かち書き規則でしめられている。日本 語ヨミを付けることにしたのは、これによって検索するためではなく、ヨミの分かち書き を利用して漢字表記の語分割を行うためである。したがって、かなり詳細な規則は作った が、これによって完全に統一されるという期待はしていない。 中国語の語分割は、目録にとって大きな問題である。検索の便宜を考えると当然語分割さ れていることが望ましい。しかし、一般的に受け入れられているような語分割の規則はな いし、語分割する習慣もない。(ピンインの語分割規則として決められているものはある が)。中国国家図書館のMARCでも語分割は行っていない。中国語の語分割の難しさを示 していると言えよう。しかし、中国語を日本語として読むことは、日本人が7世紀以来行 って、確立したものとなっており、ほとんどの日本人にとって大方は無理なくできる。ま た、ヨミにおいて語分割することは、これまでのNACSIS-CATで(多少のゆれはあるもの の)確立した習慣となっている。これを組み合わせると、中国語の場合も語分割した日本 語ヨミを付け、これをもとに漢字表記の語分割を行うという日本語と同様の方式を使うこ とがもっともよいと判断したものである。 この方式でヨミの分かちを行うと、本のタイトルでは、ほとんどの場合はそれほど悩まず に日本読ヨミを付けられる。語分割のゆれの問題も、日本語におけるときと大差のない程 度と考えられる。ただし、少数ではあるが、ヨミを付けることや語分割をすることが、非 常に難しい場合もある。しかし、これらはいずれにせよ検索のキーに普通はしないような 語であり、ゆれが出ても、また、最後の手段としての音読みで片づけても、実際上の問題 は少ない。中国語に日本語のヨミを付けるというこの方式は、所詮語分割のための便宜的 な方式であり、完全に「正しい」方式などあり得ないものである。したがって、あまり悩 んだり労力をかけたりすることをせずに、常識の範囲で対処されることを期待している。 ちなみに、日本語のヨミでも実はかなりの問題はあるが、それほど細かい規定をせずに何 とか運用されてきている。(もちろんゆれもある)。それと、同程度の運用は可能ではない かと期待している。 5 漢籍目録とNACSIS-CAT NACSIS-CATでの中国資料古籍、いわゆる漢籍については、現在総合目録小委員会でその 取り扱いを検討中である。一方、漢籍目録の全国統合目録データベースの計画も進んでい る。NACSIS-CATでの整理は、主として図書館での蔵書管理を目的とし、このような書名 を持った資料が、どこの図書館のどこに所蔵されているかということを示すことを目的と するものである。これに対し、漢籍としての整理は、その本が古典中国学の研究対象とし て、どのような本であるかということを示すことを目的としている。 この違いは、例えば叢書のような場合に顕著に現れる。叢書で各巻に固有の書名のない場 合、NACSIS-CATでは単に「XX叢書」、何十冊といっておわりである。漢籍目録では一般 に、叢書に含まれる作品ごとに分析的に記述を行う。たとえていえば、逐次刊行物におけ る目録と、記事索引のような異なる対象を扱うものであると考える。 もちろん、これらの異なる見方での整理が、全く独立に行われるのではなく、相互に連関 して利用できることが最も好ましい。このデータベース同士の連関方法については現在検 討中である。もしできうるならば、NACSIS-CATと漢籍としての両方の方法で目録をとる ことがのぞましい。しかしながら、人的資源、予算的制約、利用と保存の形態などさまざ まな環境の違いにより、とりうる方法は制約されてくる。各資料の環境によって、扱う方 法が異なってくるのはやむを得ないことであろう。 6 おわりに 以上、NACSIS-CATの多言語化と中国語対応とについて紹介した。NACSIS-CATの中国 語対応は、まだまだ始まったばかりで、CHINA MARCの習慣など、まだ、十分確認でき ていない点も多い。目録データベースのような継続的に増加し続けるデータベースは、運 用しながら規則を決めていく場合が多い。その点で、現在の「中国語資料の取扱い」はま だまだ初期段階であり、今後の運用によって変更、追加されていくものと考えている。 文献: MIYAZAWA, A., Multi-lingual Catalog(Chinese): Tasks and Future,海外における日本 情報の需要と供給に関する研究, 平成9年度報告、1998,pp.13-17. [学術情報センター目録情報課],新目録所在情報システム,1998.07.02,Web page, http://www.cat.op.nacsis.ac.jp/INFO/newcat/index.html