0. システムID = 1250b 1. システム 1.1. システムでは明示的にパターンが使用されているか = はい 1.1.0. 1.1.が「はい」の場合は1.2.、「いいえ」は1.3.、それ以外は1.4へ 1.2. 明示的なパターンの使用 1.2.1. パターンの数 = 65,128 1.2.2. パターンの端末要素は文字、形態素、文節のいづれか : 形態素 1.2.3. パターンのカテゴリ(非端末要素:文字列でないもの) 1.2.3.1. カテゴリの種類数 = 33 ただし、実際は文字列と組み合わせて使う場合もある 1.2.3.2. そのカテゴリは、品詞レベルか概念(意味)レベルか : 品詞レベル 1.2.4. パターンの構成要素の範囲 1.2.4.1. 中心語と接辞(接頭、接尾辞) = はい 1.2.4.2. 複数の名詞句(説明名詞句(「電話会社」)などを含む) = はい 1.2.4.3. 文節内のレベル(格助詞などを含む) = 形態素レベルなので文節の概念はない 1.2.4.4. 文節を越えたレベル(動詞などを含む) = 形態素レベルなので文節の概念はない 1.2.5. パターンの作成方法 1.2.5.1. タグつきコーパスを参考にした = はい 1.2.5.2. タグつきコーパスを参考にした場合、その量(文数) = 11006 1.2.5.3. タグなしコーパスを参考にした(KWICなど) = いいえ 1.2.5.4. タグなしコーパスを参考にした場合、その量(文数) = 1.2.5.5. 既存辞書を参考にした = いいえ 1.2.5.6. 既存辞書を参考にした場合、辞書名 : 1.2.5.7. なんらかの統計処理/自動化を行なった(クラスタリングなど) : はい 1.2.5.8. そのほかのパターン作成方法 : 1.2.5.9. パターン作成にかかった労力(延べ日数) = 1日(ツールによる自動作成なので) 1.2.6. パターンの適応 1.2.6.1. パターンの適応に確率/統計/優先度を導入したか = はい 1.2.6.2. パターンの適応が決定的な場合、その順序の作成はどうしたか : 1.3. 明示的なパターンを使用していない 1.3.1. どのような手法か(例:3-gram,可変N-gram) : 1.3.2. 端末要素の単位は文字、形態素、文節のいづれか : 1.3.3. 要素のカテゴリ(非端末要素:文字列でないもの) 1.3.3.1. カテゴリの種類数 = 1.3.3.2. そのカテゴリは、品詞レベルか概念(意味)レベルか : 1.3.4. 構成要素の範囲 1.3.4.1. 固定範囲ならばその範囲 : 1.3.4.2. 固定範囲でなければその範囲の決め方 : 1.3.5. 作成方法(手作業、自動) : 1.3.6. 知識の作成にかかった労力(延べ日数) = 1.4. どのような手法か説明して下さい : タグつきコーパスから形態素レベルで、規則抽出。条件付確率と固有名辞書を使った判別分析にフィルタを数種適用 して候補を決定。 1.5. 自動学習をなんらかの形で使用した場合のみ答えて下さい 1.5.1. どの場面で使用したか : 規則の抽出、規則の初期スコアの決定、固有名辞書を使った判別分析のパラメータ学習、閾値の決定 1.5.1.0. 複数の場面で使用した場合は主なものについて以下答えて下さい 1.5.2. 自動学習の手法は(例:決定木、最大エントロピー、決定リスト) : 判別分析 1.5.3. 自動学習データの規模は(総合ドメイン:文数) = 11006 1.5.4. 自動学習データの規模は(逮捕ドメイン:文数) = 11006 1.5.5. 自動学習で使用された素性はどのようなものか : 品詞、文字列、固有名辞書にあるかどうか 1.5.6. 自動学習で使用された素性はどのように選んだか : 人手で選択(質問の意図がよくわかりません) 1.5.7. 自動学習の部分に関連して人手でやったことがあるか : いいえ 1.5.8. 自動学習にかかった時間(時間) = 2〜3 1.5.9. 人手の部分にかかった時間(時間) = 0 1.6. 形態素解析ツールを使ったか = はい 1.6.1. 形態素解析ツールのシステム名 : Sumomo 1.3 1.6.2. 形態素解析辞書の全登録語数 = ? 1.6.3. 固有名詞辞書のカテゴリ種別と登録数(例:会社名=30000) : 会社名=3377 地名=7210 国名=151 人名=3793 日付=147 時間=30 官庁名=374 通貨名=35 割 合=17 トレーニングデータ中の固有名から=10527 その他=31248 1.6.4. 辞書をIREX-NEのためにチューニングしたか = はい(トレーニングデータ中の固有名を使った) 1.6.5. 形態素解析結果が固有表現より長い場合に対処したか(例「来日」) = いいえ 1.6.5.1. すべての処理が終了してから対処 = 1.6.5.2. 形態素解析処理の直後に対処 = 1.6.5.3. その他 = 1.6.5.4. この処理のための情報はどこから得たか(例:サンプルデータ) : 1.6.6. 構文解析、係り受け解析は使ったか = いいえ 1.6.6.1. 構文解析、係り受け解析などを行なったとしたらその処理レベル : 1.7. 分野限定課題で、限定分野用にシステムをチューニングしたか = いいえ 1.7.1. トレーニングデータを替えた = 1.7.2. パターンを替えた = 1.7.3. パターンのなんらかの重みを替えた = 1.7.4. 辞書を替えた = 1.7.5. その他 : 1.8. 解析は、一記事あたり何回か = 1回(質問意図不明) 1.8.1. 1.8.で1回以上と答えた方。何のためか 1.8.1.1. 照応解析 = 1.8.1.2. 短縮表現解析 = 1.8.1.3. 固有表現種類の曖昧性の解析 = 1.8.1.4. 未知語解析 = 1.8.1.5. パターンの重みのチューニング = はい 1.8.1.6. 辞書の重みのチューニング = はい 1.8.1.7. その他 : 2. 基礎データ 2.1. システム開発に関連して以下のどのようなコーパスデータを使用したか 2.1.1. NEタグつきコーパス 2.1.1.1. IREX-NE予備試験トレーニングデータ = はい 2.1.1.2. IREX-NE予備試験データ = はい 2.1.1.3. IREX-NE本試験逮捕トレーニングデータ = いいえ 2.1.1.4. 過去のMUC/METデータ = いいえ 2.1.1.5. CRL固有表現データ = はい 2.1.1.6. その他 : 2.1.1.7. タグつきコーパスの全規模(文数) : 11006 2.1.2. タグなしコーパス 2.1.2.1. 毎日新聞記事データ = 2.1.2.2. 日経新聞記事データ = 2.1.2.3. 朝日新聞記事データ = 2.1.2.4. その他新聞記事データ : 2.1.2.5. その他新聞記事以外のデータ : 2.1.2.6. タグなしコーパスの全規模(文数) : 0 2.1.3. その他の種類のコーパス(形態素解析済みなど) : 0 2.1.3.1. その他の種類のコーパスの規模(文数) : 2.2. システム開発に関連して以下のどのような辞書データを使用したか 2.2.1. JUMAN辞書 = 2.2.2. EDR辞書 = Sumomo で使用 2.2.3. NYU公開の固有表現辞典 = 2.2.4. 組織名辞典(使った場合には商品名) : 2.2.5. 人名辞典(使った場合には商品名) : 2.2.6. 地名辞典(使った場合には商品名) :  2.2.7. 固有物名辞典(使った場合には商品名) : 2.2.8. その他固有表現の辞典(使った場合には商品名) : 3. 実行環境 3.1. 検索時間(1記事あたりの平均CPU時間[秒]) = 0.12 3.2. プロセスサイズ[MB] = 3.4 3.3. 計算機についての情報 3.3.1. 実験に使用した計算機 : SUN SS-UA-1 3.3.2. その計算機は専用か共用か : 共用 3.3.3. ハードディスクの総容量[GB] = 30 3.3.4. RAMの総容量[MB] = 437 3.3.5. CPUのクロック数[MHz] = 167 4. 個別結果(例のように「抽出できたか、辞書にあるか」を書く) 4.0.1. (例)「ゴアレーベン村」 = 抽出できた 辞書にない 4.0.2. (例)「コソボ自治州」 = 抽出できない 辞書にある 4.1. 組織名 4.1.1. 「不動産情報・登記・税制・評価システム協議会」(100000001) : 抽出できない 辞書にない 4.1.2. 「厚生科学審議会先端医療技術評価部会」(100000002) : 抽出できない 辞書にない 4.1.3. 「マクロメディア」(100000051) : 抽出できない 辞書にない 4.1.4. 「ヘアーサロンSAKAI」(100000007) : 抽出できない 辞書にない 4.1.5. 「モガミ・アメリカ」(100000068) : 抽出できた 辞書にない 4.1.6. 「MBCテレビ」(100000012) : 抽出できない 辞書にない 4.1.7. 「インターポール」(100000046) : 抽出できない 辞書にない 4.1.8. 「緑の党」(100000003) : 抽出できた 辞書にある 4.2. 人名 4.2.1. 「本多静雄」(100000025) : 抽出できない 辞書にない 4.2.2. 「ほんだ・しずお」(100000025) : 抽出できない 辞書にない 4.2.3. 「波雄」(100000025) : 抽出できない 辞書にない 4.2.4. 「本多秋五」(100000025) : 抽出できない 辞書にある 4.2.5. 「パプリヤス」(100000036) : 抽出できた 辞書にない 4.2.6. 「矢内原巧」(100000002) : 抽出できない 辞書にない 4.2.7. 「ユトリロ」(100000014) : 抽出できない 辞書にない 4.2.8. 「佐藤康光」(100000044) : 抽出できない 辞書にない 4.2.9. 「佐藤」(100000044) : 抽出できた 辞書にある 4.2.10. 「中上ちさと」(100000022) : 抽出できた 辞書にない 4.3. 地名 4.3.1. 「ゴアレーベン村」(100000003) : 抽出できない 辞書にない 4.3.2. 「ゴアレーベン」(100000003) : 抽出できない 辞書にない 4.3.3. 「コソボ自治州」(100000008) : 抽出できない 辞書にない 4.3.4. 「コソボ」(100000030) : 抽出できない 辞書にない 4.3.5. 「米」(100000008[米兵と表現したもの]) : 抽出できた 辞書にある 4.3.6. 「米」(100000012[米韓と表現されたもの]) : 抽出できない 辞書にある 4.4. 固有物名 4.4.1. 「ヨーロッパ調街並み」(100000014) : 抽出できない 辞書にない 4.4.2. 「推理小説展望」(100000017) : 抽出できない 辞書にない 4.4.3. 「日本推理作家協会賞」(100000017) : 抽出できない 辞書にない 4.4.4. 「鳳仙花」(100000022) : 抽出できない 辞書にない 4.4.5. 「シーバード号」(100000039) : 抽出できない 辞書にない 5. 自由記述 :