情報処理技術は漢字文献からどのような情報を抽出できるか ; 人文情報学の基礎を築く
What information can be extracted from Kanbun texts with computational methods? ;
contribution to fundamental research in Digital Humanities
人文:USTREAM http://ustream.tv/channel/zinbun/
多くの漢字は複数の部品を組み合わせたものになっており、こうした漢字構造の機械可読化は漢字の検索や分析にとってとても重要であるといえる。このための表現形式としては IDS が ISO/IEC 10646 の一部として標準化されているが、Web 標準である RDF 形式を用いて適切に表現するにはどうすれば良いかについて考えてみたい。
インターネット上の膨大な情報資源の中から的確に知識・情報と利用者を繋げる手段として、また、図書館をはじめとする様々な機関が所有するデータを繋げる枠組みとしてのメタデータ標準「国立国会図書館ダブリンコアメタデータ記述(DC-NDL)」のコンセプトやスキーマ設計等について紹介する。
Google searchに利用されているPageRankというアルゴリズムは、ウェブサイトのコンテンツの重要度を、リンク関係に基づいて統計的に評価するものである。本報告では、このアルゴリズムは実装上の問題をどのように解決しているかと、このアルゴリズムを用いて引用—被引用の関係から学術論文の重要度を測った研究を紹介する。