情報処理技術は漢字文献からどのような情報を抽出できるか ; 人文情報学の基礎を築く
What information can be extracted from Kanbun texts with computational methods? ;
contribution to fundamental research in Digital Humanities
人文:USTREAM http://ustream.tv/channel/zinbun/
日本のマンガの多くは、週刊誌や月刊誌等に連載されたのち、単行本としてまとめられる、という出版形態をとっている。しかも、単行本にまとめる際に、フキダシやコマ割り、あるいはストーリーそのものを改変することが、かなり頻繁におこなわれている。すなわち、初出と単行本とが、いわゆる異本の関係にあり、それらの異同を調査することが、マンガ研究の一部をなす、ということである。本発表では、そのような異同を記述する際に、マンガの情報構造をできるかぎり反映する方法を探ると同時に、その有効性を、手塚治虫『三つ目がとおる』の異本を例に検証する。
TEI(Text Encoding Initiative)のテクスト・モデルは1987年以来幾多の変遷を経て今日の姿に変わった。TEI本来のテキスト・モデルは、SGMLの基本モデルに沿い、複数のツリーから成る構造を持っていたが、2002年から2007年にかけて行ったXMLへの移行の過程で、複数のツリーを可能にする構造が失われたので、テキスト・モデルもマークアップ言語の制約を受けて、基本的にはツリーを1つしか持たない構造になった。よって、マークアップのシンタックス・レイヤーではもはや複数の構造に対応できないので、その代替措置として、20年以上に及ぶ運用の経験も踏まえ、セマンティクス・レイヤーでその構造を補う対策をとってきた。さらに、2011年には、物理的な文献あるいはテキストの生成の表記のために、もう1つ、レイヤーを導入した。本発表では、元々のモデルの概要とそれ以来の変更、及びその変更の理由について報告する。
昨今、人文学における計算機の利用は文献学的研究、言語学的研究にも浸透してきつつある。共同研究の研究課題「情報処理技術は漢字文献からどのような情報を抽出できるか」もそうした流れにあって、更にその可能性を広げようという野心的な試みである。
本発表では従来より情報の劣化を問題視されることの多い電子テクストに対して、漢字文献における電子的翻刻の課題について議論することを通して、新たな表現の可能性を開くようなテクストモデルを構築することを目標に、その方途を検討する。また、その過程で触れることができる人文学的な情報の意味についても考察したい。本発表が情報抽出の前提であるテクストがどのような対象であるのかということについて、再考するきっかけになればと思う。
近年の学術情報サービスは、本来の目的である専門家に向けた情報提供だけでなく、広く一般に知識を伝える役割が求められている。国立情報学研究所では、理解しやすいメタデータの整備、ウェブAPIの提供などによってこのような要請に応えている。
データの入手性を高めることは、分野横断的な研究を促進する上でも有効であると思われる。現在、さまざまな機関が所持するデータをオープン化し、それぞれをつなぐ試みが進められている。本発表では、Linked Open Data(LOD)と呼ばれるこの潮流について概説するとともに、CiNiiを中心とした学術情報サービスにおける応用とその可能性について議論する。