0. システムID = 1231 1. システム 1.1. システムでは明示的にパターンが使用されているか = はい 1.1.0. 1.1.が「はい」の場合は1.2.、「いいえ」は1.3.、それ以外は1.4へ 1.2. 明示的なパターンの使用 1.2.1. パターンの数 = 約400 1.2.2. パターンの端末要素は文字、形態素、文節のいづれか : 文字または形態素 1.2.3. パターンのカテゴリ(非端末要素:文字列でないもの) 1.2.3.1. カテゴリの種類数 = 1000以上 1.2.3.2. そのカテゴリは、品詞レベルか概念(意味)レベルか : 品詞、意味の両方 1.2.4. パターンの構成要素の範囲 1.2.4.1. 中心語と接辞(接頭、接尾辞) = はい 1.2.4.2. 複数の名詞句(説明名詞句(「電話会社」)などを含む) = はい 1.2.4.3. 文節内のレベル(格助詞などを含む) = はい 1.2.4.4. 文節を越えたレベル(動詞などを含む) = はい 1.2.5. パターンの作成方法 1.2.5.1. タグつきコーパスを参考にした = はい 1.2.5.2. タグつきコーパスを参考にした場合、その量(文数) = 2000 1.2.5.3. タグなしコーパスを参考にした(KWICなど) = いいえ 1.2.5.4. タグなしコーパスを参考にした場合、その量(文数) = 1.2.5.5. 既存辞書を参考にした = いいえ 1.2.5.6. 既存辞書を参考にした場合、辞書名 : 1.2.5.7. なんらかの統計処理/自動化を行なった(クラスタリングなど) : いいえ 1.2.5.8. そのほかのパターン作成方法 : 1.2.5.9. パターン作成にかかった労力(延べ日数) = 150日 1.2.6. パターンの適応 1.2.6.1. パターンの適応に確率/統計/優先度を導入したか = いいえ 1.2.6.2. パターンの適応が決定的な場合、その順序の作成はどうしたか : トライアルアンドエラー 1.3. 明示的なパターンを使用していない 1.3.1. どのような手法か(例:3-gram,可変N-gram) : 1.3.2. 端末要素の単位は文字、形態素、文節のいづれか : 1.3.3. 要素のカテゴリ(非端末要素:文字列でないもの) 1.3.3.1. カテゴリの種類数 = 1.3.3.2. そのカテゴリは、品詞レベルか概念(意味)レベルか : 1.3.4. 構成要素の範囲 1.3.4.1. 固定範囲ならばその範囲 : 1.3.4.2. 固定範囲でなければその範囲の決め方 : 1.3.5. 作成方法(手作業、自動) : 1.3.6. 知識の作成にかかった労力(延べ日数) = 1.4. どのような手法か説明して下さい : パターンマッチを中心にしたプログラム処理 1.5. 自動学習をなんらかの形で使用した場合のみ答えて下さい 1.5.1. どの場面で使用したか : 1.5.1.0. 複数の場面で使用した場合は主なものについて以下答えて下さい 1.5.2. 自動学習の手法は(例:決定木、最大エントロピー、決定リスト) : 1.5.3. 自動学習データの規模は(総合ドメイン:文数) = 1.5.4. 自動学習データの規模は(逮捕ドメイン:文数) = 1.5.5. 自動学習で使用された素性はどのようなものか : 1.5.6. 自動学習で使用された素性はどのように選んだか : 1.5.7. 自動学習の部分に関連して人手でやったことがあるか : 1.5.8. 自動学習にかかった時間(時間) = 1.5.9. 人手の部分にかかった時間(時間) = 1.6. 形態素解析ツールを使ったか = はい 1.6.1. 形態素解析ツールのシステム名 : 独自のツール 1.6.2. 形態素解析辞書の全登録語数 = 十万語以上 1.6.3. 固有名詞辞書のカテゴリ種別と登録数(例:会社名=30000) : 不明 1.6.4. 辞書をIREX-NEのためにチューニングしたか = いいえ 1.6.5. 形態素解析結果が固有表現より長い場合に対処したか(例「来日」) = はい 1.6.5.1. すべての処理が終了してから対処 = いいえ 1.6.5.2. 形態素解析処理の直後に対処 = はい 1.6.5.3. その他 = 1.6.5.4. この処理のための情報はどこから得たか(例:サンプルデータ) : サンプル、仕様書 1.6.6. 構文解析、係り受け解析は使ったか = いいえ 1.6.6.1. 構文解析、係り受け解析などを行なったとしたらその処理レベル : 1.7. 分野限定課題で、限定分野用にシステムをチューニングしたか = はい 1.7.1. トレーニングデータを替えた = はい 1.7.2. パターンを替えた = いいえ 1.7.3. パターンのなんらかの重みを替えた = いいえ 1.7.4. 辞書を替えた = いいえ 1.7.5. その他 : 1.8. 解析は、一記事あたり何回か = 1回 1.8.1. 1.8.で1回以上と答えた方。何のためか 1.8.1.1. 照応解析 = 1.8.1.2. 短縮表現解析 = 1.8.1.3. 固有表現種類の曖昧性の解析 = 1.8.1.4. 未知語解析 = 1.8.1.5. パターンの重みのチューニング = 1.8.1.6. 辞書の重みのチューニング = 1.8.1.7. その他 : 2. 基礎データ 2.1. システム開発に関連して以下のどのようなコーパスデータを使用したか 2.1.1. NEタグつきコーパス 2.1.1.1. IREX-NE予備試験トレーニングデータ = はい 2.1.1.2. IREX-NE予備試験データ = はい 2.1.1.3. IREX-NE本試験逮捕トレーニングデータ = はい 2.1.1.4. 過去のMUC/METデータ = いいえ 2.1.1.5. CRL固有表現データ = いいえ 2.1.1.6. その他 : 2.1.1.7. タグつきコーパスの全規模(文数) : 2000文 2.1.2. タグなしコーパス 2.1.2.1. 毎日新聞記事データ = 2.1.2.2. 日経新聞記事データ = 2.1.2.3. 朝日新聞記事データ = 2.1.2.4. その他新聞記事データ : 2.1.2.5. その他新聞記事以外のデータ : 2.1.2.6. タグなしコーパスの全規模(文数) : 2.1.3. その他の種類のコーパス(形態素解析済みなど) : 2.1.3.1. その他の種類のコーパスの規模(文数) : 2.2. システム開発に関連して以下のどのような辞書データを使用したか 2.2.1. JUMAN辞書 = いいえ 2.2.2. EDR辞書 = いいえ 2.2.3. NYU公開の固有表現辞典 = いいえ 2.2.4. 組織名辞典(使った場合には商品名) : いいえ 2.2.5. 人名辞典(使った場合には商品名) : いいえ 2.2.6. 地名辞典(使った場合には商品名) : いいえ 2.2.7. 固有物名辞典(使った場合には商品名) : いいえ 2.2.8. その他固有表現の辞典(使った場合には商品名) : いいえ 3. 実行環境 3.1. 検索時間(1記事あたりの平均CPU時間[秒]) = 30秒 3.2. プロセスサイズ[MB] = 7MB 3.3. 計算機についての情報 3.3.1. 実験に使用した計算機 : Linux PC 3.3.2. その計算機は専用か共用か : 共用 3.3.3. ハードディスクの総容量[GB] = 20GB 3.3.4. RAMの総容量[MB] = 128MB 3.3.5. CPUのクロック数[MHz] = 166MB 4. 個別結果(例のように「抽出できたか、辞書にあるか」を書く) 4.0.1. (例)「ゴアレーベン村」 = 抽出できた 辞書にない 4.0.2. (例)「コソボ自治州」 = 抽出できない 辞書にある 4.1. 組織名 4.1.1. 「不動産情報・登記・税制・評価システム協議会」(100000001) : 抽出できない 辞書にない 4.1.2. 「厚生科学審議会先端医療技術評価部会」(100000002) : 抽出できた 辞書にない 4.1.3. 「マクロメディア」(100000051) : 抽出できない 辞書にない 4.1.4. 「ヘアーサロンSAKAI」(100000007) : 抽出できない 辞書にない (ARTIFACT としてこの単位で抽出) 4.1.5. 「モガミ・アメリカ」(100000068) : 抽出できた 辞書にない 4.1.6. 「MBCテレビ」(100000012) : 抽出できた 辞書にない 4.1.7. 「インターポール」(100000046) : 抽出できない 辞書にない 4.1.8. 「緑の党」(100000003) : 抽出できない 辞書にない 4.2. 人名 4.2.1. 「本多静雄」(100000025) : 抽出できた 辞書にない (姓、名は辞書にあり) 4.2.2. 「ほんだ・しずお」(100000025) : 抽出できない 辞書にない 4.2.3. 「波雄」(100000025) : 抽出できた 辞書にある 4.2.4. 「本多秋五」(100000025) : 抽出できない 辞書にない (姓は辞書にあり) 4.2.5. 「パプリヤス」(100000036) : 抽出できた 辞書にない 4.2.6. 「矢内原巧」(100000002) : 抽出できない 辞書にない 4.2.7. 「ユトリロ」(100000014) : 抽出できない 辞書にない 4.2.8. 「佐藤康光」(100000044) : 抽出できた 辞書にない (姓、名は辞書にあり) 4.2.9. 「佐藤」(100000044) : 抽出できない 辞書にある 4.2.10. 「中上ちさと」(100000022) : 抽出できた 辞書にない (姓、名は辞書にあり) 4.3. 地名 4.3.1. 「ゴアレーベン村」(100000003) : 抽出できない 辞書にない 4.3.2. 「ゴアレーベン」(100000003) : 抽出できない 辞書にない 4.3.3. 「コソボ自治州」(100000008) : 抽出できた 辞書にない 4.3.4. 「コソボ」(100000030) : 抽出できない 辞書にない 4.3.5. 「米」(100000008[米兵と表現したもの]) : 抽出できない 辞書にない 4.3.6. 「米」(100000012[米韓と表現されたもの]) : 抽出できない 辞書にない 4.4. 固有物名 4.4.1. 「ヨーロッパ調街並み」(100000014) : 抽出できない 辞書にない 4.4.2. 「推理小説展望」(100000017) : 抽出できない 辞書にない 4.4.3. 「日本推理作家協会賞」(100000017) : 抽出できない 辞書にない 4.4.4. 「鳳仙花」(100000022) : 抽出できない 辞書にない 4.4.5. 「シーバード号」(100000039) : 抽出できた 辞書にない 5. 自由記述 :