IREX
Information Retrieval and Extraction Exercise
http://cs.nyu.edu/cs/projects/proteus/irex/
http://www.csl.sony.co.jp/person/sekine/IREX/
最終更新日時 1999年7月26日
English homepage
ワークショップ
1999年9月1日に学術情報センターのNTCIRと合同ワークショップ、
9月2ー3日には、IREXプロジェクトの報告を目的とした
独自のワークショップ(参加自由、無料)を開催します。
なお、8月30ー31日には、NTCIRのワークショップも行なわれます。
この参加者は評価参加者に限られています。
すべてのワークショップは同じ場所(KKRホテル)で行なわれます。
IREX Workshop Information in English
IREX Workshop Information in Japanese (日本語)
NTCIR/IREX Workshop Information
NTCIR Workshop Information
情報化が完全に浸透した現在、個人が扱わなければいけない
コンピュータ上の情報量は、その能力の限界をはるかに越える程になっています。
特に、新聞記事やホームページなどのテキストの広大な海から自分に有用な情報を
見つける事は至難の技であります。
このような状況に鑑み、情報検索や情報抽出といった技術が欧米、日本などを
初め世界中で研究、開発されております。
特に米国で行なわれているMUCやTRECといったコンテストは、この分野の
技術を推進するために重要な役割を担ってきたと認識されています。
日本でも、非常に優れた研究が行なわれてきましたが、主に個々の研究所や
大学等で行なわれてきたため、共通のプラットフォームでのシステム間の評価や
問題点や議論の共有という事が難しい状況でありました。
そこで、このような問題点を認識している研究者、開発者を募り、
共通のプラットフォームでのそれぞれのシステムの評価を行なう場を
提供したいと思います。
この場においては、単なる評価だけではなく、そこから派生する以下のような種々の
効果を期待しております。
問題点の共有と、それに基づくこの分野の飛躍的な進歩、発展
情報検索、情報抽出の研究の認知、宣伝、推進
研究者の裾野の拡大
膨大なデータの蓄積、テキストデータベースの拡大
長期的なプロジェクトへの緒
上記のような問題点を認識している研究者、開発者ならば、企業、研究機関、
大学、個人を問わず参加資格があります。
参加料は原則的に無料ですが、情報検索の対象データは
毎日新聞(94,95年版:有料)を利用します。
固有表現抽出では、毎日新聞社様の御好意により99年のデータを
無料で使用します。
課題
以下の2種類の課題を予定しています。
参加者はどちらかひとつ、または両方の課題に参加できます。
固有表現抽出 (NE)
情報検索、情報抽出の基礎技術として、新聞記事からの組織名、人名 、地名等の
自動的な抽出を行ないます。
実際はサンプルデータにあるように、SGMLタグを対象場所に振り、
提供ツールを使って得られたオフセット情報を提出してもらう事で
情報のやりとりを行ないます。
対象記事はトピックを限定した記事
(トピックは評価の2週間程度前に発表)と、
自由トピックの記事、合計100記事(比率については実際のデータを見てから判断しますが、限定トピック30〜40記事、自由トピック70〜60記事
という予定です)で行う事を予定しています。
- IREX NE ホームページ
情報検索 (IR)
検索課題として指定された内容の記事を2年分の新聞記事の中から
自動的に検索するという課題です。
質問の総数は30個を予定しています。各参加者は、検索課題に関係する
記事のIDを確信度の高い順に300記事(予定)まで提出してもらいます。
評価は、正解率と再現率で行ないます。
- IREX IR ホームページ
- 予備試験の課題
2つの課題とも、基礎的な技術を評価する事を目的にしています。
例えば、情報検索や情報抽出においては、ユーザーインターフェースやユーザーの
意図の導出が重要ですが、今回行なうような基礎的な技術の評価や、
それに伴なうデータの作成、蓄積は
より高度な技術の発展にも役に立つと確信しております。
また、将来においては、そのような高度な課題も含めていける事を希望しています。
日程
- 1998年6月30日 NE定義、IR検索課題の叩き台公開
- 1998年7月31日 第一次参加申し込み締切 (以降も随時参加申し込みを受け付けています)
- 1998年9月16日 第2回ミーティング
- 1998年10月16日 NE定義の議論終了
-
- ==予備試験 (任意参加、結果非公開)==
- 1998年11月9日 IR検索課題配布
- 1998年11月16日 IR検索結果提出
- 1998年11月17日 NE評価対象データ配布
- 1998年11月20日 NE抽出結果提出
-
- 1999年3月15日 最終参加申し込み締切
-
- ==本試験==
- 1999年4月5日 IR検索課題配布
- 1999年4月12日 IR検索結果提出 (日本時間23時59分まで)
- 1999年4月13日 NEシステムの開発凍結
- 1999年5月13日 NE評価対象データ配布
- 1999年5月17日 NE抽出結果提出 (日本時間23時59分まで)
-
- 1999年9月1日 NTCIR/IREX合同ワークショップ
- 1999年9月2,3日 IREXワークショップ
IREX公開データ・ツール (バージョン 990726)
公開ツール、関連データには以下の物が含まれています。
- IR_DEF : IRの定義ルール等
- IR_SAMPLE : IRの検索要求例
- IR_TOOLS : IRのツール
(ファイル変換ツール、正解判定用ツール)
- IR_JUDGE_TRIAL : IRの判定のトライアルキット
- IR_DRYRUN : 予備試験の課題、判定結果
- IR_FORMAL : 本試験の課題、判定結果
- NE_DEF : NEの定義ルール等
- NE_SAMPLE : NEのサンプルデータ
- NE_TRIAL : NEのトライアルキット
- NE_TOOLS : NEのツール
(毎日新聞記事変換ツール、タグ付けツール、
インデックス作成ツール、スコアラ)
- NE_DRYRUN : 予備試験の記事リスト、正解
- NE_FORMAL : 本試験の正解(記事は評価参加者のみ公開)
- NE_CRLDATA : CRL固有表現データ(10000文の固有表現データ)
- S_SYETEM/IR : IRのサンプルシステムとその結果ファイル
- S_SYETEM/SIR : IRのサンプルシステムとその結果ファイル
- S_SYETEM/NE : NEのサンプルシステムの結果ファイル
新聞記事データ
日外アソシエーツから発売されている毎日新聞の94年、95年の記事を対象にします。
それぞれ、12万円(言語処理学会の会員は7万2000円)です。
購入希望者は日外アソシエーツ、営業本部の尾崎様(電話:03-3763-5241)まで
御連絡の上、お求めください。
詳しくは毎日新聞記事データの研究利用許諾についてを御覧ください。
このデータの代金、著作権等については、IREX実行委員会はまったく
責任を持ちません。
参加申し込み
参加申込書 (English Form)に必要事項を記入、
責任者の捺印をしたものを、1999年3月15日までに
通信総研の井佐原まで送付してください
(住所は申込書に記載)。
その他
関連プロジェクトへのリンク
主催 : IREX実行委員会
メイリングリストアドレス : irex@karc.crl.go.jp
実行委員長 : 関根 (NYU)、 井佐原 (通信総研)
顧問 : 長尾(京大)、 田中(東工大)、 R.Grishman(NYU)、 石川(図情大)、 D.Harmon(NIST)、 飯田(SONY)
実行委員 : 徳永(東工大)、黒橋(京大)、奥村(北陸先端大)、野畑(東大)、
北(徳島大)、乾(九工大)、峯(九大)、中川(横国大)、藤井(図情大)、中村(九工大)、
福島(TAO)、神門(学情)、橋田(電総研)、隅田(ATR)、村田、内元(通総研)、
野口(松下)、奥村、福島(NEC)、小川(リコー)、酒井(東芝)、
福本(沖)、木谷、江里口(NTTデータ)、中渡瀬(NTT)、豊浦(三菱)、
落谷(富士通)、荻野(IBM)
(順不同、敬称略)