IREX-NE システム アンケート --------------------------- IREX-NEに参加したチームは、各システムごとに1通づつ、 このフォームを作成しirex-submit@karc.crl.go.jpに送付してください。 計算機処理しますので、記入は:または=の後のみに1行で書いてください。 それ以外の部分は書き換えないようにお願いします。 :の後は、自由文で回答してください。 =の後は、「はい」「いいえ」「不明」のいずれかか、適切な数字または 記号で回答してください。 上記の印(:、=)がない行には、何も記入する必要はありません。 それぞれ、:や=の次の半角スペースは削らないでください。 極力上記の制約をお守りください。どうしても不可能な場合には =の後に自由文で回答していただいても結構です。 以下、システムによって色々なバリエーションがあると思いますが、 特にここでは、辞書とパターンを以下のように定義します。 辞書 : 単語とその上のレベルのなんらかのカテゴリとの対応 パターン : 複数の単語やカテゴリの並びに対するルール(対応でも構わない) このあたりの定義がうまく当てはまらない場合には、最後の自由記述の所に書 いて下さい。 また、トレーニングデータや辞書の規模などの質問がありますが、 細かく調べるのが困難な場合にはオーダーが違わない程度の正確さで 回答していただけるようにお願いします。 ---------------------------------------------------------------------------- 0. システムID = 1223 1. システム 1.1. システムでは明示的にパターンが使用されているか = いいえ 1.1.0. 1.1.が「はい」の場合は1.2.、「いいえ」は1.3.、それ以外は1.4へ 1.2. 明示的なパターンの使用 1.2.1. パターンの数 = 1.2.2. パターンの端末要素は文字、形態素、文節のいづれか : 1.2.3. パターンのカテゴリ(非端末要素:文字列でないもの) 1.2.3.1. カテゴリの種類数 = 1.2.3.2. そのカテゴリは、品詞レベルか概念(意味)レベルか : 1.2.4. パターンの構成要素の範囲 1.2.4.1. 中心語と接辞(接頭、接尾辞) = 1.2.4.2. 複数の名詞句(説明名詞句(「電話会社」)などを含む) = 1.2.4.3. 文節内のレベル(格助詞などを含む) = 1.2.4.4. 文節を越えたレベル(動詞などを含む) = 1.2.5. パターンの作成方法 1.2.5.1. タグつきコーパスを参考にした = 1.2.5.2. タグつきコーパスを参考にした場合、その量(文数) = 1.2.5.3. タグなしコーパスを参考にした(KWICなど) = 1.2.5.4. タグなしコーパスを参考にした場合、その量(文数) = 1.2.5.5. 既存辞書を参考にした = 1.2.5.6. 既存辞書を参考にした場合、辞書名 : 1.2.5.7. なんらかの統計処理/自動化を行なった(クラスタリングなど) : 1.2.5.8. そのほかのパターン作成方法 : 1.2.5.9. パターン作成にかかった労力(延べ日数) = 1.2.6. パターンの適応 1.2.6.1. パターンの適応に確率/統計/優先度を導入したか = 1.2.6.2. パターンの適応が決定的な場合、その順序の作成はどうしたか : 1.3. 明示的なパターンを使用していない 1.3.1. どのような手法か(例:3-gram,可変N-gram) : 学習による方法。学習の段階では、学習コーパスを形態素解析し、そこから得られる情報を利用して、各々の形態素に付与するべきラベルの付与確率を計算するための最大エントロピーモデルを作成する。付与するラベルとしては、複数の形態素が一つの固有表現を構成することがあるため、NEで定義されている8種類の固有表現のタグを、固有表現の始まり、中間、終り、単独に分け、さらにどのラベルもつかない「OTHER」を加えた33個用意する。解析の段階では、入力文を形態素解析し、その結果を利用して各々の形態素にラベルを付与する。その際、学習した最大エントロピーモデルから各ラベルの付与確率を計算し、ラベルの付与確率の積が一文全体で最大になるように各ラベルを決定する。ただし、ラベルとラベルの間には連接規則を用意し、その規則を満たすラベルの並びのみを候補とする。学習、解析の段階ともに形態素解析結果から利用する情報は、着目している形態素を含み前後2形態素ずつ合計5形態素に関する情報とする。すべてのラベルが決まったら、ラベルからIREX-NEで定義された8種類のタグへ変換する。以上の処理が終った後で、形態素解析結果が固有表現より長い場合に対処するため、予め用意しておいた書き換え規則を適用する。書き換え規則は、学習コーパスに対するシステムの解析結果とコーパスの正解データのdiffをとることによって自動獲得することができる。 1.3.2. 端末要素の単位は文字、形態素、文節のいづれか : 形態素 1.3.3. 要素のカテゴリ(非端末要素:文字列でないもの) 1.3.3.1. カテゴリの種類数 = 2 1.3.3.2. そのカテゴリは、品詞レベルか概念(意味)レベルか : 品詞レベル 1.3.4. 構成要素の範囲 1.3.4.1. 固定範囲ならばその範囲 : 1.3.4.2. 固定範囲でなければその範囲の決め方 : 学習コーパスに依存 1.3.5. 作成方法(手作業、自動) : 自動 1.3.6. 知識の作成にかかった労力(延べ日数) = 20 1.4. どのような手法か説明して下さい : 1.5. 自動学習をなんらかの形で使用した場合のみ答えて下さい 1.5.1. どの場面で使用したか : 最大エントロピーモデルの学習および書き換え規則の獲得 1.5.1.0. 複数の場面で使用した場合は主なものについて以下答えて下さい 1.5.2. 自動学習の手法は(例:決定木、最大エントロピー、決定リスト) : 最大エントロピー 1.5.3. 自動学習データの規模は(総合ドメイン:文数) = 11,000 1.5.4. 自動学習データの規模は(逮捕ドメイン:文数) = 11,000 1.5.5. 自動学習で使用された素性はどのようなものか : 着目している形態素を含み前後2形態素ずつ合計5形態素に関する見出し語および品詞の情報 1.5.6. 自動学習で使用された素性はどのように選んだか : 人手 1.5.7. 自動学習の部分に関連して人手でやったことがあるか : 素性の選択以外は人手の介入はない 1.5.8. 自動学習にかかった時間(時間) = 7 1.5.9. 人手の部分にかかった時間(時間) = 0.5 1.6. 形態素解析ツールを使ったか = はい 1.6.1. 形態素解析ツールのシステム名 : JUMAN3.6 1.6.2. 形態素解析辞書の全登録語数 = 130,000 1.6.3. 固有名詞辞書のカテゴリ種別と登録数(例:会社名=30000) : JUMAN3.6に準ずる 1.6.4. 辞書をIREX-NEのためにチューニングしたか = いいえ 1.6.5. 形態素解析結果が固有表現より長い場合に対処したか(例「来日」) = はい 1.6.5.1. すべての処理が終了してから対処 = はい 1.6.5.2. 形態素解析処理の直後に対処 = いいえ 1.6.5.3. その他 = いいえ 1.6.5.4. この処理のための情報はどこから得たか(例:サンプルデータ) : CRL固有表現データ、IREX-NE予備試験トレーニングデータ、IREX-NE予備試験データ、IREX-NE本試験逮捕トレーニングデータ 1.6.6. 構文解析、係り受け解析は使ったか = いいえ 1.6.6.1. 構文解析、係り受け解析などを行なったとしたらその処理レベル : 1.7. 分野限定課題で、限定分野用にシステムをチューニングしたか = いいえ 1.7.1. トレーニングデータを替えた = いいえ 1.7.2. パターンを替えた = いいえ 1.7.3. パターンのなんらかの重みを替えた = いいえ 1.7.4. 辞書を替えた = いいえ 1.7.5. その他 : 1.8. 解析は、一記事あたり何回か = 2回 1.8.1. 1.8.で1回以上と答えた方。何のためか 1.8.1.1. 照応解析 = いいえ 1.8.1.2. 短縮表現解析 = いいえ 1.8.1.3. 固有表現種類の曖昧性の解析 = いいえ 1.8.1.4. 未知語解析 = いいえ 1.8.1.5. パターンの重みのチューニング = いいえ 1.8.1.6. 辞書の重みのチューニング = いいえ 1.8.1.7. その他 : 形態素解析結果が固有表現より長い場合に対処するために書き換え規則を適用するため 2. 基礎データ 2.1. システム開発に関連して以下のどのようなコーパスデータを使用したか 2.1.1. NEタグつきコーパス 2.1.1.1. IREX-NE予備試験トレーニングデータ = はい 2.1.1.2. IREX-NE予備試験データ = はい 2.1.1.3. IREX-NE本試験逮捕トレーニングデータ = はい 2.1.1.4. 過去のMUC/METデータ = いいえ 2.1.1.5. CRL固有表現データ = はい 2.1.1.6. その他 : 2.1.1.7. タグつきコーパスの全規模(文数) : 11,000 2.1.2. タグなしコーパス 2.1.2.1. 毎日新聞記事データ = いいえ 2.1.2.2. 日経新聞記事データ = いいえ 2.1.2.3. 朝日新聞記事データ = いいえ 2.1.2.4. その他新聞記事データ : 2.1.2.5. その他新聞記事以外のデータ : 2.1.2.6. タグなしコーパスの全規模(文数) : 2.1.3. その他の種類のコーパス(形態素解析済みなど) : 2.1.3.1. その他の種類のコーパスの規模(文数) : 2.2. システム開発に関連して以下のどのような辞書データを使用したか 2.2.1. JUMAN辞書 = はい 2.2.2. EDR辞書 = いいえ 2.2.3. NYU公開の固有表現辞典 = いいえ 2.2.4. 組織名辞典(使った場合には商品名) : 2.2.5. 人名辞典(使った場合には商品名) : 2.2.6. 地名辞典(使った場合には商品名) : 2.2.7. 固有物名辞典(使った場合には商品名) : 2.2.8. その他固有表現の辞典(使った場合には商品名) : 3. 実行環境 3.1. 検索時間(1記事あたりの平均CPU時間[秒]) = 47 3.2. プロセスサイズ[MB] = 87 3.3. 計算機についての情報 3.3.1. 実験に使用した計算機 : Sun Ultra 10 3.3.2. その計算機は専用か共用か : 共用 3.3.3. ハードディスクの総容量[GB] = 8 3.3.4. RAMの総容量[MB] = 1,000 3.3.5. CPUのクロック数[MHz] = 300 4. 個別結果(例のように「抽出できたか、辞書にあるか」を書く) 4.0.1. (例)「ゴアレーベン村」 = 抽出できた 辞書にない 4.0.2. (例)「コソボ自治州」 = 抽出できない 辞書にある 4.1. 組織名 4.1.1. 「不動産情報・登記・税制・評価システム協議会」(100000001) : 抽出できない 辞書にない 4.1.2. 「厚生科学審議会先端医療技術評価部会」(100000002) : 抽出できない 辞書にない 4.1.3. 「マクロメディア」(100000051) : 抽出できない 辞書にない 4.1.4. 「ヘアーサロンSAKAI」(100000007) : 抽出できない 辞書にない 4.1.5. 「モガミ・アメリカ」(100000068) : 抽出できない 辞書にない 4.1.6. 「MBCテレビ」(100000012) : 抽出できた 辞書にない 4.1.7. 「インターポール」(100000046) : 抽出できない 辞書にない 4.1.8. 「緑の党」(100000003) : 抽出できたものもあればできなかったものもある 辞書にない 4.2. 人名 4.2.1. 「本多静雄」(100000025) : 抽出できた 姓、名それぞれ辞書にある 4.2.2. 「ほんだ・しずお」(100000025) : 抽出できない 辞書にない 4.2.3. 「波雄」(100000025) : 抽出できない 辞書にない 4.2.4. 「本多秋五」(100000025) : 抽出できた 姓のみ辞書にある 4.2.5. 「パプリヤス」(100000036) : 抽出できない 辞書にない 4.2.6. 「矢内原巧」(100000002) : 抽出できた 辞書にない 4.2.7. 「ユトリロ」(100000014) : 抽出できない 辞書にない 4.2.8. 「佐藤康光」(100000044) : 抽出できない 姓のみ辞書にある 4.2.9. 「佐藤」(100000044) : 抽出できた 辞書にある 4.2.10. 「中上ちさと」(100000022) : 抽出できた 姓のみ辞書にある 4.3. 地名 4.3.1. 「ゴアレーベン村」(100000003) : 抽出できた 辞書にない 4.3.2. 「ゴアレーベン」(100000003) : 抽出できない 辞書にない 4.3.3. 「コソボ自治州」(100000008) : 抽出できたのもあればできなかったものもある 辞書にない 4.3.4. 「コソボ」(100000030) : 抽出できたのもあればできなかったものもある 辞書にない 4.3.5. 「米」(100000008[米兵と表現したもの]) : 抽出できた 辞書にない 4.3.6. 「米」(100000012[米韓と表現されたもの]) : 抽出できた 辞書にない 4.4. 固有物名 4.4.1. 「ヨーロッパ調街並み」(100000014) : 抽出できない 辞書にない 4.4.2. 「推理小説展望」(100000017) : 抽出できない 辞書にない 4.4.3. 「日本推理作家協会賞」(100000017) : 抽出できない 辞書にない 4.4.4. 「鳳仙花」(100000022) : 二つあるうち一つは抽出できた 辞書にある 4.4.5. 「シーバード号」(100000039) : 抽出できた 辞書にない 5. 自由記述 :