0. システムID = 1122a 0.1. IREX固有の情報 0.1.1. 使用した検索課題中の情報(DESCRIPTIONのみ(D)、NARRATIVEのみ(N)、DESCRIPTIONとNARRATIVE両方(D&N))= D&N 0.1.2. NEGのタグは利用しましたか? = はい 0.1.3. システム開発に関連して過去に94、95年毎日新聞を使用したことがありますか? = いいえ 0.1.4. 95年8月24、25日のデータのバグについて予め対処してありますか? = はい 1. 索引づけ 1.1. 索引づけに用いた方法 1.1.1 日本語の索引単位は何か?(uni-gram,bi-gram,その他のn-gram,単語,フレーズ,その他) : 単語 1.1.2. どのような方法を用いて索引づけをしたか?(辞書、形態素解析、その他) : 辞書を用いた極大単語切り出し 1.1.3. 索引語の選択方法は何か?(例:ストップワード、字種、品詞など) : ストップワード以外を選択 1.1.4. 語彙(文字)の正規化を行なったか? = いいえ 1.1.5. ステミングアルゴリズムを用いたか? = いいえ 1.1.6. 語の重みづけを用いたか? = はい 1.1.7. フレーズ単位で索引づけをしたか? = いいえ 1.1.8. フレーズの種類は? = いいえ 1.1.9. フレーズの見つけ方は?(統計的、構文的、その他) : 1.1.10. 構文解析は行なったか? = いいえ 1.1.11. シソーラスや用語集などを用いたか? = いいえ 1.1.12. 語義の曖昧性解消は行なったか? = いいえ 1.1.13. 誤字脱字やスペルのチェックは行なったか? = いいえ 1.1.14. 誤字脱字やスペルの修正は行なったか? = いいえ 1.1.15. 固有名詞を識別したか? = いいえ 1.1.16. どのような方法で索引単位に分割したか? : 極大単語索引方式 1.1.17. 日本語のヨミを用いたか? = いいえ 1.1.18. ヨミを用いた場合、ヨミはどのように生成したか? : 1.1.19. 索引づけに用いたその他の方法(具体的に) : 1.2. 毎日新聞から構築された索引データの構造 1.2.1. 索引の構造の種類 1.2.1.1. クラスタ : 1.2.1.2. シグネチャファイル : 1.2.1.3. Pat木 : 1.2.1.4. 知識ベース : 1.2.1.5. その他(具体的に) : 極大単語索引 1.2.2. 索引の概要 1.2.2.1. 索引の規模[MB] = 300 1.2.2.2. 構築に要した時間[時間] = 0.5 1.2.2.3. 実行過程は自動化されているか? = はい 1.2.2.4. 語の出現位置(オフセット)は使用したか? = はい 1.3. 毎日新聞以外の情報源から索引作成のために利用したデータ 1.3.1. 独自に構築したデータ(種類=シソーラス、知識ベース、辞書など) : 辞書 1.3.2. 外部で構築されたデータ(種類とデータ名) : EDR辞書(原辞書として利用) 2. 検索式の作成 2.1. 検索式を作成するのに要した時間(1課題当たりの平均CPU時間[秒]) = 4.3 2.2. 検索式作成に使用した方法 2.2.1. 索引単位への分割(uni-gram,bi-gram,その他のn-gram,単語,フレーズ,その他) : 単語(辞書未登録語も含む) 2.2.2. フレーズの抽出 : しない 2.2.3. 構文解析 : しない 2.2.4. 語義の曖昧性解消 : しない 2.2.5. 固有名詞の識別 : しない 2.2.5. 検索式の自動拡張 : 使用した 2.2.5.1. シソーラスなど既存のツール : 使用しない 2.2.5.2. 自動レレバンスフィードバック : 使用した 2.2.5.3. ローカルコンテクストアナリシス : 使用しない 2.2.5.4. その他(具体的に) : 語の類似度(タームベクトル間の内積)に基づく拡張 2.2.6. ブール演算子や近接演算子などの自動的付与 : はい 2.2.7. その他(具体的に) : 3. 検索実行 3.1. 検索時間(1検索式に対する平均CPU時間[秒]) = 0.6 3.2. プロセスサイズ[MB] = 0.5 3.3. 計算機についての情報 3.3.1. 実験に使用した計算機 : Sun SS-UA2 3.3.2. その計算機は専用か共用か : 共用 3.3.3. ハードディスクの総容量[GB] = 64 3.3.4. RAMの総容量[MB] = 1024 3.3.5. CPUのクロック数[MHz] = 296 4. 検索モデル 4.1. ベクトル空間型を用いたか? = はい 4.2. 確率型を用いたか? = いいえ 4.3. その他(具体的に) : 4.4. ランクづけの要素 4.4.1. TF(語の出現頻度)を使用したか? = はい 4.4.2. IDFを使用したか? = はい 4.4.3. その他の重みづけ(具体的に) : 文書内共起情報を利用 4.4.4. 意味の近さを使用したか? = いいえ 4.4.5. 文書中の位置を使用したか? = いいえ 4.4.6. 構文的な手がかりを使用したか? = いいえ 4.4.7. 語の近接(距離)を使用したか? = いいえ 4.4.8. 文書の長さを使用したか? = はい 4.4.9. その他(具体的に) : 5. その他 5.1. 上の質問で回答していないシステムの特色 : 5.2. チームの構成員 5.2.1. 日本語を母国語とする人がいますか? = はい 5.2.2. 日本語のわかる人がいますか? = はい 5.3. 関連データの利用 5.3.1. BMIR-1を利用しましたか? = いいえ 5.3.2. BMIR-2を利用しましたか? = 評価データとして利用した 5.3.3. NACSIS-collectionを利用しましたか? = 間接的に利用した 5.3.4. IREX-IR予備試験データを利用しましたか? = 評価データとして利用した 5.3.5. TRECデータを利用しましたか? = いいえ