情報検索課題 (version 980926)
-----------------------------
1998年9月26日
1.イントロダクション
情報検索の課題では、検索課題に示された内容の新聞記事を毎日新聞の94,95年版
CDROMに含まれる全ての記事から検索する。検索対象記事はツール(mai2sgml.pl)
によって変換されたデータに対して行なう。オリジナルのCDROMに含まれている
キーワード等の情報は使用してはいけない。検索課題にある情報のどの部分をどのよう
に使用するかは参加者の自由意志である。
2.試験に関して
2.1.対象データ
本試験の対象データは、94,95年毎日新聞CDROMに含まれているデータを使用
する。該当記事を予め、IRのための記事分類や人間によるインデックス付けなど、シ
ステムの性能向上の目的で人間が見る事は禁止する。96年以降のCDROMが発売さ
れた場合、今後のIREXで使用される可能性が高いので、この部分においても、人間
がシステム開発の目的で見る事を禁止する。
ただし、これまでに、このコンテストに似た目的で該当記事をすでに使用している参加
者は、システムを作成しなおすか、さもなければ、使用した事を告白する事によって参
加できる。その場合、評価結果にはその旨記載される。
2.2.データの交換
1999年4月5日にIR本試験開始時に検索課題ファイルを電子メイルによって参加
者に配布する。参加者は1999年4月12日までに、以下に定義された検索結果提出
ファイルをIREX結果提出アドレス(irex-submit@karc.crl.go.jp)まで送付する。
2.3.試験の実行
試験の実行は、試験期間中に一回だけ行なえる。ただし、実行中にシステムがクラッシ
ュした場合や、出力ファイルにフォーマットのエラーが見付かった場合は、その内容を
人間が見る事なしに、次の検索課題から再度実行を開始できる。検索課題、および、記
事の中味は試験期間中に人間が見る事は禁止する。人間が見ない限り、システムが繰り
返し検索課題や記事を見渡す事は許される。また、各参加者が提出できる結果は1つのみ
とする。
2.4.検索結果提出記事数
各システムは、検索結果を300まで提出する。ただし、以下に述べる判定は時間や予算の
関係上、300すべてに対して行なえるとは限らない。判定はそれぞれのシステムの上位の
記事から初め、順に下位の記事を判定するという方法を取るため、システム間の不公平は
生じない筈である。
2.5.判定
判定は、参加者が提出した記事の和集合を人間が判定する事によって行なう。したがっ
て、すべての参加者が検索漏れをした記事が存在する可能性が生じるため、本当の意味
での再現率は計れない。また、判定は2人の人間が行ない(学生判定)、そこで確実に答
として一致している物は最終判定も自動的にその答に従う。意見が一致しなかった物や
不安の表明があった物については、第三者が判定する(最終判定)という方式を取る。
なお、IRの参加者が判定者を兼る事はない。
2.6.判定基準
・学生判定6段階、最終判定3段階で判定する。
学生 A :記事の主題が検索課題に関連している。
A?:Aだと思うが不安
B :主題ではないが記事の一部が関連する。または、なんらかの関連がある。
B?:Bだと思うが不安
C :関連しない
C?:Cだと思うが不安
最終 A:記事の主題が検索課題に関連している。
B:主題ではないが記事の一部が関連する。または、なんらかの関連がある。
C:関連しない。
・学生判定で不安を表明する場合は理由を述べる事を推奨する。
2.7.評価
最終判定でAのみを正解とした場合と、A,B共に正解とした場合について、適合率と
擬似再現率(和集合の中での再現率)のグラフ等によって、各システムの比較ができるよ
うにする。グラフ以外にも平均適合率等の評価基準を用いる。
2.8.システムに関するアンケート
試験終了後、参加者にはシステムに関するアンケートに回答してもらう。これには、
システムが検索課題のどの部分を利用したか、またシステムの構成等についての質問が
含まれる。
3.交換データフォーマット
IREXから参加者へ配布する検索課題のフォーマットと、参加者からIREXに提出
する検索結果フォーマットを定義する。
* {}内は、その意味を表わす。
* EUC文字列には、いかなる半角文字(アルファベット、半角数字、半角記号、半角ス
ペース、タブ、改行)も含まない。
* 隣接するタグの間には0個以上の改行が含まれる。
3.1.IR検索課題ファイルのフォーマット
(以下の例ではNARRATIVEの内部に改行があるが、これは表示のためであり
実際に配布する検索課題ではNARRATIVEの内部に改行は入らない)
==例==
0001
米国企業が関与した企業合併
記事には企業合併の発表が述べられており、その合併に参加する企業の
名前が認定できる事。また、合併企業の分野、目的など具体的内容が認定できる事。
その合併に少なくともひとつの米国企業が関連している事。企業合併は企業併合、企
業統合も含む。
.....
==BNF==
file := topic*
topic := topic-contents
topic-contents := topic-id description narrative
topic-id := number
{4桁の整数、検索課題のID番号}
description := EUC string
{検索要求の簡潔な表現。主に修飾語を伴なった名詞句。
3つまでの自立語群から成る。}
narrative := EUC-string
{人間が見て可能な限り曖昧なく判断ができる程度に詳細な検索要求の記述。
2,3の文で表現され、必要ならば、辞書記述、同義語、具体例も含む。}
3.2.IR結果提出ファイルのフォーマット
IR結果提出ファイルは以下のIREXフォーマットかTRECフォーマットの
いずれかによって提出できる。
3.2.A.IR結果提出ファイルのIREXフォーマット
==例==
9901
0002
9408312013
9409049267
9511120931
9503050928
9409019278
9408202938
9401010293
9401102943
...
...
...
==BNF==
file := system_id ir_result*
system_id := number
{このSYSTEM-IDのnumberはIREXから参加者に個別に配布する。4桁の整数}
ir_result := individual_result
individual_result := topic_id candidate*
topic_id := number
{TOPIC-IDは4桁の整数}
candidate := document_information
{RANKは該当記事の検索結果における順位を示す。順位は上であるほど、
また、スコアの数値が高い程、より検索課題に該当する可能性が高いと
システムが判断した事を意味する。順位は正の整数。スコアは浮動小数点}
docno_information := number
{記事のID番号。毎日新聞をmai2sgml.plのプログラムで変更した際に
得られるIDを利用する。}
3.2.A.IR結果提出ファイルのTRECフォーマット
例:
0002 0 9408312013 1 9999 9901
0002 0 9409049267 2 9997 9901
0002 0 9511120931 3 9989 9901
0002 0 9503050928 4 9988 9901
0002 0 9409019278 5 9970 9901
0002 0 9408202938 6 9966 9901
0002 0 9401010293 7 9965 9901
0002 0 9401102943 8 9961 9901
フォーマット:
検索課題番号 ダミーフィールド 文書番号 ランク スコア システムID
・各カラムの区切はタブ1個です
・検索課題番号は検索課題の番号です。
・ダミーフィールドは使用しませんので0にします。
・文章番号は記事IDです。
・ランクはランク付き検索での文書のランク(正の整数)です。
・スコアはランク付き検索での文書のスコア(浮動小数点)です。
・システムIDはIREXから各参加者にお知らせした4桁の番号です。
4.予備試験での特別ルール
予備試験では以下の特別なルールを採用する。このルールを本試験でも採用する
かどうかは予備試験の結果を見て決定する。
検索課題のNARRATIVEの記述において、「〜を除く」など否定的な表現については
というタグで囲み、明示的にしておく。したがって、3.1で述べた
検索課題ファイルのフォーマットは以下のように変更される。ただし、否定的表現
のみという事はない。
narrative := [EUC-string|EUC-string]+