固有表現抽出課題 (version 981018) --------------------------------- 1998年10月18日 1.イントロダクション 固有表現の抽出では以下の8種類の固有表現の抽出を行なう。 開始位置タグ 終了位置タグ * 固有名詞的表現 * 組織名、政府組織名 * 人名 * 地名 * 固有物名 * 時間表現 * 日付表現 * 時間表現 * 数値表現 * 金額表現 * 割合表現 それぞれの固有表現文字列の開始、終了位置に、システムは重複や入れ子のない唯一の タグのペアをふる。もし、表現が重なっている場合は、原則的に長い単位の表現を抽出 する。(例:日本銀行では日本を地名として抽出するのではなく、日本銀行全体を組織名 として抽出する。)タグの種類は上記の分類に示された通りである。 1.1 オプショナル タグ付けが判定者にも困難な場合には、,というタグを用い その範囲内の文字列に関するタグは評価の対象から外す。その範囲を越えたタグの ペアについては不正解とする。 例: 正解データ: 成田空港問題について 回答1(対象外): 成田空港問題について 回答2(対象外): 成田空港問題について 回答3(不正解,Over-generate): 成田空港問題について 2.試験に関して 2.1.対象データ 本試験の対象データは、1999年4月14日から5月13日の毎日新聞のデータからの 100記事とする。試験はドメインを限らないものとドメインを限ったものの二種類を 行なう。限定ドメインについては3月31日に発表し、ドメイン依存性およびシステムの ポータビリティを見る目的で実験を行なう。開発に関して、1999年4月13日までに 存在する知識はどのような物をも使用して構わない。 2.2.システム開発 システム開発は,1999年4月13日で凍結し、そのシステムを使って5月13日 に配布される対象データに対してシステムを走らせる。 2.3.対象部分 ドキュメント中で固有表現を抽出する対象部分は、ヘッドライン、要約、およびテキス トの範囲のみとする。(注意:日付の部分は除く。) それらの部分は、HEADLINE,SUMMARY または、TEXTというSGMLのダグで指定された範囲である。(そのフォーマットは毎日新聞 をmai2sgml.plでSGMLフォーマットに変換した物と同様の物である。) 2.4.データの交換 1999年5月13日に評価対象記事を電子メイルによって参加者に配布する。参加者 は同年5月17日までに、提供されているteaツールによって作成されたオフセット情 報である結果ファイルをIREX結果提出アドレス(irex-submit@karc.crl.go.jp)まで 送付する。 2.5.試験の実行 試験の実行は、試験期間中に一回だけ行なえる。ただし、実行中にシステムがクラッシ ュした場合や、出力ファイルにフォーマットのエラーが見付かった場合は、その内容を 人間が見る事なしに、次の記事から再度実行を開始できる。そのための記事セットは 記事番号インデックスファイルを作成し、記事抽出を再度行なう事で作成する。 記事の中味は試験期間中に人間が見る事は禁止する。人間が見ない限り、システムが 繰り返し記事を見渡す事は許される。 2.6.評価 一つの表現の範囲および種類が正確に抽出された時のみ正解とする。評価は、適合率(pr ecision)と再現率(Recall)に基いて計算されるF-measureという値を利用する。適合率と は、システムが生成した結果の中でどれだけが正解だったかの割合を示す。再現率は、 全正解中で、システムがどれだけ正解を見つけられたかの割合を示す。例えば、4つの固 有表現が正解としてあったとし、システムが、5つの表現を出力し、3つが正解だったと すると適合率と再現率は以下のようになり、F-measureも以下の定義で求まる。 適合率: P = 3/5 = 60% 再現率: R = 3/4 = 75% F-measure = (b^2+1)*P*R/(b^2*P+R) F-measureとは、評価をひとつの数字で表現できるという利点はもとより、例えば、以下 のような突飛なシステムの評価を正当に行なるという利点もある。あるシステムは、全 ドキュメント中で1つしか結果を出力しない。それが正解である場合は、再現率は非常に 低いが、適合率は100%である。しかし、このようなシステムのF-measureは非常に低くな る。逆に、あるシステムは、結果を非常に沢山出力する。その中に正解が含まれる確率 は高くなり再現率は高くなるが、逆に適合率が低くなる。相対的にこのようなシステム のF-measureは低くなる。ただし、アプリケーションによっては、適合率が重要な場合や 逆に再現率が重要な場合もあると思われるが、そのような場合はF-measure定義の中の定 数bを調整する事によって、適合率と再現率のバランスの変更ができる。 2.6 正解データの修正 試験のために作成された正解データは、参加者のリクエストによって修正される事が ある。特に断りのない限りにおいては、正解データが発表されてから1ヶ月間は、参加者 は公表された正解データに関して、質問、修正のリクエストを提出する事ができ、正解 作成者グループはそのリクエストの妥当性を検討し、妥当であると判断された物に対し ては、正解を修正する。最終的な評価結果は、この修正された正解データを用いて行な う。 3.定義 3.1 固有名詞的表現 固有名詞的表現は、組織名、人名、地名、固有物名の固有の対象を示す表現を言う。 固有名詞や固有名詞を含む複合語、その省略形などの形で表現されている。ただし、指 示代名詞や普通名詞を利用した照応表現はここでの抽出対象には含まない。(例:それ、 当委員会、会議) 表現が、例えば、組織名にも地名にも取れるものがある。(例:成田空港問題。成田空港 に着陸した。ホワイトハウスの発表。ホワイトハウスに到着した。)その場合は、使用さ れているコンテクストから、それがその場合にどちらを意味するかを参考に判断する。 以下に固有名詞的表現全体に適用される規則を示す。 3.1.A 部分表現 名詞連続や接辞が付いたものでも、その一部に固有名詞的表現を含む場合はそれを抽出 する。ただし、全体として慣用的に普通名詞的に用いられている場合には抽出しない。 慣用的かどうかは以下のように定義する。 ・判定の基準とする辞書に項目名にあがっていた場合はひとまとまりの語と判断する。 ・ABという名詞連続が「AのB」で言い替えられるときは、ひとまとまりの語と しない。ただし言い替えた場合に別の意味になる場合は、ひとまとまりの語。 ・日本語では地名でないものは地名としない。(ウィナー、アメリカン、ナポリタン など) ・上記の条件に適合しても、他と矛盾がある場合、あるいは揺れがあるものはOPTIONAL にする。 (以下、?のついたものは未だ定義を確定していない) NHK番組 クリントン大統領 日本市場 ? 米軍機 ? 議長 ? 労働党員 ? 沖電気関西研究所沖電気関西研究所所長 製造物責任問題検討会委員長 パリジェンヌ 江戸っ子 京女 東男 瀬戸物 唐きび 五右衛門風呂 川崎病 ハンセン氏病 漢字 英語 アメリカンコーヒー 来日 訪米 文相 農水大臣 鈴木家 フランス人形 フランス料理 フィリピン人 在エジプト 3.1.B 助詞「の」、特殊記号 助詞の「の」や特殊記号の「,.・/ (スペース)」等は固有表現を分割し、いずれ の固有表現もそれを含まない。ただし、慣用表現としてそのような物を含む表現では、 それを含む。 大阪の工場 宮田工場 日本銀行福岡支店 京大長尾眞日本銀行福岡支店 東京 銀座 影の内閣 3.1.C 連続固有表現 連続固有表現はそれぞれが独立した固有表現で、前のものが、後のもののスーパークラ スになっている場合は分割しない。ただし、並列な固有表現が連続している場合には それらは分割する。また、部分的な並列表現で分割すると違った意味のものを生んで しまう場合には分割しない。 日本銀行福岡支店 東工大水泳部 東京読売巨人軍 東京都目黒区大岡山2−12−1 東京銀座 東京大阪 両国 チェコスロバキア 南北朝鮮 中南米 衆参議院 3.1.D 省略形、ニックネーム 省略形、ニックネームは固有表現が含まれている場合はすべて抽出する。ただし、省略 であっても一般名詞のみを使い照応として使われている場合は抽出しない。 NRA ホワイトハウスの発表によると 広島巨人 北朝鮮 きょん2 ミッチーコール 明治 (明治生命と文脈で分る場合) 東武鉄道...当鉄道は... 田中教授...教授は... 3.1.E 入れ子 入れ子の場合は、一番外の固有表現のみを抽出する。しかし、以下のような場合には注 意が必要である。 松下貿易(松貿)株式会社 松下貿易株式会社松貿) 3.1.F 特殊シンボル かっこ、かぎかっこ、強調のためのシンボルは、それが固有表現の内部にあれば入れる が、外にある場合は入れない。 ビト・”ザ・ゴッドファーザー”・コーレオン橋竜」カラー 「平和のためのパートナーシップ」(PFP)協定 3.1.G グループ名 固有名詞的表現であっても、宗教名、特定の対象を示さないグループ名、漠然と複数の 組織を示す表現は抽出しない。(特例:宗教名はオプショナルとする) キリスト教 オウム真理教 イスラム原理主義者 夏の収穫祭 JR各社 国営四現業 関係七組合 警察 但し、 警察庁 東京都警視庁 3.1.H イベント名、事件名 イベント名は、いづれの固有表現にも当らないとし抽出しない。 長野オリンピック リオ・カーニバル リクルート事件発覚 ロッキード事件 通常国会 湾岸戦争 3.1.I 漢字の読み 漢字の名前等の読みが()内等に記述されている場合、その読みについてもタギングす る。 有馬朗人氏(ありま・あきと京極純一氏(きょうごく・じゅんいち長尾眞まこと)氏 3.1.J 接頭辞 「旧」「新」等の接頭辞は一般に、個体を区別するために付いているので、固有表現に 含める。 旧ユーゴスラビア 新田中派 3.1.K 空想上の対象 空想上の対象でも、それが組織名、人物、地名、固有物名を現わすものであれば、タグ 付けする。ただし、空想上の対象でも、明かにそのような対象外であるもの(例えば、 空想上の動物)はタグ付けしない。その中間である曖昧な対象はOPTIONALとする。 アリスは不思議な国を旅行します。 サザエさん富士見山に出掛けました。 地球防衛軍 ミッキーマウス サイボーグ009 3.1.K 仮名 仮名を使用した表現はタグ付けしない。 仮名:田中太郎氏 仮名:A氏 少年Aは... 企業Bの発売した商品C 3.1.1 組織名 組織名とは、複数の人間で構成され、共通の目的を持った組織等の名称の事である。株 式会社等の会社、固有の政府組織、学校、軍、スポーツチーム、国際組織、労働組合、 工場、ホテル、空港、病院、教会やなんらかの目的を持ったグループ等もその対象が組 織としての意味で使われている文脈においては組織名とする。政府組織に関する注意事 項は3.1.1.Bを参照の事。 富士通研究所株式会社 国会 九州工業大学工学部 区立八雲小学校 アメリカ軍 パレスチナ警察部隊 西武ライオンズ 国連 欧州連合 JR東日本 富士通労組 宮田工場 全日空ホテル 三沢基地 成田空港 長野歯科 聖オルバン教会 サザンオールスターズ IREX実行委員会 改革ビジョン委員会 3.1.1.A 接辞 組織名を表す接辞は組織名に含める。 松下電器産業株式会社 学校法人みどり学園 (財)計量計画研究所 3.1.1.B 政府組織 省庁等の政府組織、政党、政党内派閥、軍隊、大使館のような固有の組織の名称は組織 名とする。 通産省 参院 経団連 自民党 宮沢派 創政会 ロシア軍 在ナイジェリア日本大使館 「与野党」「与党」「野党」は固有の名前ではなく、政党の種類を示す普通名詞と判断 し、組織名とはしない。また、閣議は組織ではない。 与野党 与党 野党 閣議 政権名、政府名は対象の範囲が具体的、確定的でなく慣用的に用いられる名称であるた め、全体としては組織名としない。ただし、内閣は対象が明確になっているため、固有 名詞表現と共に用いられるときには組織名とする。 細川政権 クリントン政権 日本政府 政府 橋本内閣 影の内閣 3.1.2 人名 3.1.2.A 役職名、敬称 役職名、敬称などは人名に含めない。 長尾総長 田中教授 プロフェッサー・グリッシュマン 石川氏 3.1.2.B 賞名 固有の賞などに名前が使用されていても、人名とはしない。賞は固有物名とする。 ノーベル賞 芥川賞 3.1.2.C 肩書が付いた慣用的表現 人名に肩書が付いて慣用的に表現されている人名はOPTIONALとする。慣用的がどうかの 判断は特定の辞書に任せる。どの辞書を使うかは試験後まで公表しない。 清少納言 紫式部 虞美人 3.1.2.D 襲名する名前 襲名する名前は人名とする。また、固有のエンティティーを示す数字などの表現が 付いた場合はそれも含めて人名とする。 木村庄之助 横綱若ノ花 第十四代木村庄之助 先代若ノ花 3.1.3 地名 地名は、大陸、国名、地域名、都市名、地方名、県名、町名、村名、道路名、住所、駅 名、線路名、モニュメント、海洋名、湾、運河、川名、池名、湖名、島、公園、山、砂 漠の名前などを含む。(星、惑星、衛星の名前等は地名としない。) 太平洋 東京都 入間郡 日本 北方領土 対馬海峡 関東山脈 銀座 県道104号線 井の頭線 太宰府天満宮 富士インターチェンジ 法隆寺駅 隅田川 富士山 北海油田 チュメニ油田 オランダ人 地球 月 北極星 3.1.3.A 組織名の前に付く国名 組織名に国名などが付いている場合は、その名前が正式な組織名に含まれている場合に は、組織名として含むが、修飾語として付いている場合には、地名として別に扱う。 日本鋼管 日本IBM フォルクスワーゲン社 アメリカン航空 アメリカ国防省 国防省 3.1.3.B 単独に用いられている地名 単独に用いられている地名は、それが組織を指すような場合でも地名とする。 アメリカの圧力 永田町の決断 3.1.3.C 概略的表現 地方、地域、周辺、内、圏などのついた概略的表現は地名表現には入れない。 竹島周辺 竹島北部 竹島南 南竹島 関東地方 国内 都内 県内 道内 北海道内 海外 北極圏 3.1.3.D 民族名 同等の地名が存在しない民族名は地名としない。 マサイ族 ツチ族 アイヌ人 3.1.4 固有物名 人間の活動によって作られた具体物、抽象物を含む物の固有の名前 3.1.4.A 商品と種類 一般に商品を指す商標はすべて商品名であり、固有物名としてタグ付けする。 商品の一般的な名称を表すものは固有物名ではなく、その名称のひとつの種類 にあたる商品の名称は固有物名である ササニシキ コシヒカリ 魚沼産コシヒカリ 宮城産コシヒカリ 日本種のオリサ・ジャポニカ CPUチップ ペンティアムプロセッサ ペンティアム200MHz カローラ パナファックス ナショナル冷蔵庫 3.1.4.B 抽象物名 著作権、知的所有権が主張可能であるような作品名、出版物、成果物、法律名、 法案名、条約名、理論名等の抽象的な物も固有物名とする。 おしん 渡る世間は鬼ばかり ベートーベンピアノ協奏曲5番 企業福祉度調査結果報告書 憲法 民法 放送法 PL法案 サンフランシスコ条約 日米安保 3.1.4.C 建築物 建築物も、それがコンテクスト上、物として表現されている時には固有物名とする。 敦賀原発1号機が竣工した。 エンパイアーステートビルの完成は1931である。 3.1.4.D 行為 訴訟や判決、活動のような行為が主な要因である名前は固有物名としない。 第三次横田基地騒音訴訟 最高裁判決 PKO 3.1.4.E 賞名 賞の名前は固有物名とするが、ランキングに関するものは固有物名としない。 ノーベル賞 芥川賞 第60回全国高校野球選手権優勝 金メダル 六位入賞 3.1.4.F 理論,法則、学説 理論、法則、学説、等も、たとえそれが自然の描写であっても、人間が作るため人工物 であるため、固有物名とする。 特殊相対性理論 ホーキング宇宙論 3.1.4.G ブランド名 ブランド名は文脈により、組織名または固有物名となる。 グッチのバック グッチを買ってもらった。 3.1.4.H 物のクラス 物のクラスを表わす表現は固有物名としない。ただし、ある決まった範囲の物に固有名 が付いている場合には固有物名とする。 森永アイスクリーム 橋田ドラマ エンデバーATシリーズ カローラ 3.1.4.I 一般名詞的な使用 商標となっている固有物名でも、コンテクストとして一般的な用いられ方がされている 時には固有名としない。 彼はシャープのウオークマンを買った。 このホッチキスは使いやすい。 あのセスナ機はとても綺麗だ。 3.2 時間表現 時間表現では、絶対的な表現(例えば、1998年5月14日)や,基点が明確であり絶 対的な時間が分るような相対的な表現(記事の日付を含む文脈に基点としての今日が明確 である場合の「前日」)を抽出する。日時は、その単位が24時間以上である物を差し、時 間は、その単位が24時間以下であるものを指す。 5月14日 9月最初の月曜 春休み 3.2.A 相対的表現 以下のような相対的表現は基点が文脈から明かであり、特定の日付を差している場合は 時間表現とする。逆に例えば、「彼等は毎年、前年の例に習っている」という場合の前 年は相対的表現ではあるが、一般的な表現であり、どの年か特定する物ではないので抽 出しない。 前日 前世紀 昨秋 一昨日 先月 今週土曜日 今週土曜日 今年 本日 来週 翌年 次週 4日後 一ヶ月前 来年末 今世紀初め 3.2.B 範囲表現 範囲表現は、全体を時間表現とはせずに、個別の部分を抽出する。 4月3日から4月11日まで 以降まで 6月一杯 4月内 3.2.C 照応 照応的表現で時間を表わしている場合は時間表現として抽出しない。これは、指示代名 詞を利用した複合的表現でも同様である。 この日 その時 同日 3.2.D 時間の長さの表現 一時の時間表現ではなく時間の長さとしての時間の表現は時間表現としない。 2時間 五週間 それ以降の23年間 3.2.E ニックネーム、祝日、祭日 時代や時を表わす言語的表現も時間表現とする。 徳川時代 新石器時代 こどもの日 イスラエル建国記念日 3.2.F 連続表現 入れ子や連続表現に関する規則は固有名詞的表現に準ずる。 1973(昭和48)年1月 1973年昭和48年4月3−11日 4月3日から11日 4月3日4日 4月3日土曜日 4月3日土曜日 3.2.1 日付表現 21世紀 1970年代 98年 昨年 昨年春 5月 1998年5月14日 来年後半 6月下旬 62年暮れ 3.2.2 時間表現 3.3 数値表現 金額表現、割合表現を数値表現として抽出する。 3.3.A 概算表現 概算表現は数値表現に含めない。 約500億円 50ドル以上 0.5%くらい 20%1000円弱 3.3.B 代理表現 「数」「幾」等を使用した代理表現は数値表現とする。 ただし、固定の値が存在しないと判断できる疑問的な代理表現は数値表現としない。 数十兆円 幾千万円 数十パーセント 各社で設定された○○パーセントという閾値 3.3.C 範囲表現 範囲表現は全体を数値表現とはせずに、個別の部分を数値表現とする。 114円から116円の範囲 15%以上20%以下 3.3.C 連続表現 入れ子や連続表現に関する規則は固有名詞的表現の規則に準ずる。 20%30% 10−20% 3.3.1 金額表現 500億円 $104,500 123カナダドル 3.3.2 割合表現 20% 120パーセント −1.2% 5割 5分の1 2倍 半分 速 3.3.2.A 表現として直接的でない割合表現は含めない。 12ポイント