情報検索課題 (version 980626)
-----------------------------
1998年6月26日
1.イントロダクション
情報検索の課題では、検索課題に示された内容の新聞記事を毎日新聞の94,95年版
CDROMに含まれる記事から検索する。検索対象記事は提供ツール(mai2sgml.pl)によ
って変換されたデータに対して行なう。オリジナルのCDROMに含まれているキーワ
ード等の情報は使用してはいけない。検索課題にある情報のどの部分をどのように使用
するかは参加者の自由意志である。
2.試験に関して
2.1.対象データ
本試験の対象データは、94,95年毎日新聞CDROMに含まれているデータを使用
する。該当記事を予め、システム開発の目的で人間が見る事は禁止する。96年以降の
CDROMが発売された場合、今後のIREXで使用される可能性が高いので、この部
分においても、人間がシステム開発の目的で見る事を禁止する。
ただし、これまでに、このコンテストに似た目的で該当記事をすでに使用している参加
者は、システムを作成しなおすか、さもなければ、使用した事を告白する事によって参
加できる。その場合、評価結果にはその旨記載される。
2.2.データの交換
IR本試験開始時に検索課題ファイルを電子メイルによって参加者に配布する。参加者
は指定された期限までに、以下に定義された検索結果ファイルをIREX実行委員長
(関根:sekine@cs.nyu.edu、および井佐原:isahara@crl.go.jp)まで送付する。
2.3.試験の実行
試験の実行は、試験期間中に一回だけ行なえる。ただし、実行中にシステムがクラッシ
ュした場合や、出力ファイルにフォーマットのエラーが見付かった場合は、その内容を
人間が見る事なしに、次の検索課題から再度実行を開始できる。検索課題、および、記
事の中味は試験期間中に人間が見る事は禁止する。人間が見ない限り、システムが繰り
返し検索課題や記事を見渡す事は許される。
2.4.評価
評価は、参加者が提出した記事の和集合を人間が評価する事によって行なう。したがっ
て、すべての参加者が検索漏れをした記事が存在する可能性が生じるため、本当の意味
での再現率は計れない。また、評価は2人の人間が行ない、意見の一致している物は自
動的にその意見に従い、意見が一致しなかった物については、その2人の評価者が話し
合いで結論を出した後に、第三者が判定するという方式を取る。
適合率と擬似再現率(和集合の中での再現率)のグラフを書く事によって、各システムの
比較ができるようにする。
3.交換データフォーマット
IREXから参加者へ配布する検索課題のフォーマットと、参加者からIREXに提出
する検索結果フォーマットを定義する。
* {}内は、その意味を表わす。
* EUC文字列には、いかなる半角文字(アルファベット、半角数字、半角記号、半角ス
ペース、タブ、改行)も含まない。
* 隣接するタグの間には0個以上の改行が含まれる。
3.1.検索課題フォーマット
検索課題ファイル := 検索課題*
検索課題 := 検索課題内容
検索課題内容 := 検索課題ID 検索要求 検索要求説明
検索課題ID := 検索課題ID内容
検索課題ID内容 := [0-9]* {検索課題のID番号}
検索要求 := 検索要求内容
検索要求内容 := EUC文字列
{検索要求の簡潔な表現。主に修飾語を伴なった名詞句。}
検索要求説明 := 検索要求説明内容
検索要求説明内容 := EUC文字列
{人間が見て可能な限り曖昧なく判断ができる程度に詳細な検索要求の記述。
複数の文で表現され、必要ならば、辞書記述、同義語、具体例も含む。}
3.2.検索結果フォーマット
検索結果ファイル := 検索結果*
検索結果 := 検索結果内容
検索結果内容 := 検索課題ID 検索結果記事情報*
検索課題ID := 検索課題ID内容
検索課題ID内容 := [0-9]* {検索課題のID番号}
検索結果記事情報 := 記事ID
{RANKは該当記事の検索結果における順位を示す。順位は上であるほど、より
検索課題に該当する可能性が高いとシステムが判断した事を意味する。}
記事ID := [0-9]*
{記事のID番号。毎日新聞をmai2sgml.plのプログラムで変更した際に
得られるIDを利用する。}