0. システムID = 1120

0.1. IREX固有の情報

0.1.1. 使用した検索課題中の情報（DESCRIPTIONのみ(D)、NARRATIVEのみ(N)、DESCRIPTIONとNARRATIVE両方(D&N)）= D&N

0.1.2. NEGのタグは利用しましたか？ = はい

0.1.3. システム開発に関連して過去に９４、９５年毎日新聞を使用したことがありますか？ = いいえ

0.1.4. ９５年８月２４、２５日のデータのバグについて予め対処してありますか？ = いいえ

1. 索引づけ

1.1. 索引づけに用いた方法

1.1.1 日本語の索引単位は何か？（uni-gram,bi-gram,その他のn-gram,単語,フレーズ,その他） : 単語

1.1.2. どのような方法を用いて索引づけをしたか？（辞書、形態素解析、その他） : 形態素解析

1.1.3. 索引語の選択方法は何か？（例：ストップワード、字種、品詞など） : 名詞

1.1.4. 語彙（文字）の正規化を行なったか？ = いいえ

1.1.5. ステミングアルゴリズムを用いたか？ = いいえ

1.1.6. 語の重みづけを用いたか？ = はい

1.1.7. フレーズ単位で索引づけをしたか？ = いいえ

1.1.8. フレーズの種類は？ = 

1.1.9. フレーズの見つけ方は？（統計的、構文的、その他） : 

1.1.10. 構文解析は行なったか？ = いいえ

1.1.11. シソーラスや用語集などを用いたか？ = いいえ

1.1.12. 語義の曖昧性解消は行なったか？ = いいえ

1.1.13. 誤字脱字やスペルのチェックは行なったか？ = いいえ

1.1.14. 誤字脱字やスペルの修正は行なったか？ = いいえ

1.1.15. 固有名詞を識別したか？ = いいえ

1.1.16. どのような方法で索引単位に分割したか？ : 形態素解析

1.1.17. 日本語のヨミを用いたか？ = いいえ

1.1.18. ヨミを用いた場合、ヨミはどのように生成したか？ : 

1.1.19. 索引づけに用いたその他の方法（具体的に） : 

1.2. 毎日新聞から構築された索引データの構造

1.2.1. 索引の構造の種類

1.2.1.1. クラスタ : 

1.2.1.2. シグネチャファイル : 

1.2.1.3. Pat木 : 

1.2.1.4. 知識ベース : 

1.2.1.5. その他（具体的に） : 

1.2.2. 索引の概要

1.2.2.1. 索引の規模[MB] = 225

1.2.2.2. 構築に要した時間［時間］ = 30

1.2.2.3. 実行過程は自動化されているか？ = はい

1.2.2.4. 語の出現位置（オフセット）は使用したか？ = いいえ

1.3. 毎日新聞以外の情報源から索引作成のために利用したデータ

1.3.1. 独自に構築したデータ（種類＝シソーラス、知識ベース、辞書など） : 

1.3.2. 外部で構築されたデータ（種類とデータ名） :

2. 検索式の作成

2.1. 検索式を作成するのに要した時間（１課題当たりの平均CPU時間［秒］） = 10

2.2. 検索式作成に使用した方法

2.2.1. 索引単位への分割（uni-gram,bi-gram,その他のn-gram,単語,フレーズ,その他） : 単語

2.2.2. フレーズの抽出 : 

2.2.3. 構文解析 : 

2.2.4. 語義の曖昧性解消 : 

2.2.5. 固有名詞の識別 : 

2.2.5. 検索式の自動拡張 : 

2.2.5.1. シソーラスなど既存のツール : 

2.2.5.2. 自動レレバンスフィードバック : 

2.2.5.3. ローカルコンテクストアナリシス : 

2.2.5.4. その他（具体的に） : 

2.2.6. ブール演算子や近接演算子などの自動的付与 : 

2.2.7. その他（具体的に） : 

3. 検索実行

3.1. 検索時間（１検索式に対する平均CPU時間［秒］） = 2500

3.2. プロセスサイズ[MB]  = 0.6

3.3. 計算機についての情報

3.3.1. 実験に使用した計算機 : AS7000 U1/140

3.3.2. その計算機は専用か共用か : 共用

3.3.3. ハードディスクの総容量[GB] = 6

3.3.4. RAMの総容量[MB]  = 64

3.3.5. CPUのクロック数[MHz] = 140

4. 検索モデル

4.1. ベクトル空間型を用いたか？ = はい

4.2. 確率型を用いたか？ = いいえ

4.3. その他（具体的に） : 

4.4. ランクづけの要素

4.4.1. TF（語の出現頻度）を使用したか？ = 

4.4.2. IDFを使用したか？ = 

4.4.3. その他の重みづけ（具体的に） : WIDF

4.4.4. 意味の近さを使用したか？ = いいえ

4.4.5. 文書中の位置を使用したか？ = いいえ

4.4.6. 構文的な手がかりを使用したか？ = いいえ

4.4.7. 語の近接（距離）を使用したか？ = いいえ

4.4.8. 文書の長さを使用したか？ = いいえ

4.4.9. その他（具体的に） : タイトル中の単語共起

5. その他

5.1. 上の質問で回答していないシステムの特色 : 

5.2. チームの構成員

5.2.1. 日本語を母国語とする人がいますか？ = はい

5.2.2. 日本語のわかる人がいますか？ = はい

5.3. 関連データの利用

5.3.1. BMIR-1を利用しましたか？ = いいえ

5.3.2. BMIR-2を利用しましたか？ = いいえ

5.3.3. NACSIS-collectionを利用しましたか？ = いいえ

5.3.4. IREX-IR予備試験データを利用しましたか？ = はい

5.3.5. TRECデータを利用しましたか？ = いいえ