第3回 IREXミーティング 議事録 剱持、宮本、関根 0. 日時、場所、出席者 日時 : 平成10年11月30日(月) 10:00-13:00 場所 : (株)NTTデータ 出席者 : 江里口(NTTデータ)、荻野(IBM)、落谷(富士通研)、 佐々木(NTT)、関根(NYU)、野畑(東大)、 福本(沖電気)、剱持、宮本(横国大) 1. 対象データの範囲 2. 現行の定義を、この時点で変えることの是非 3. 複合名詞の扱い 4. 固有物名について 5. 時間表現の「特定の時」の定義の解釈 6. 固有名詞的表現の解釈 7. 地名の概略表現 ---------------------------- 1. 対象データの範囲 予備試験ではスポーツ、投書なども対象としている。 ただし、単なるスポーツの結果などは削除した。 これでいいか? <発言> ・今回の予備試験では、試験に適用する記事は毎日新聞のデータから 基本的にランダムに選択した。 ただし、試験に適用する際に問題がありそうな記事は、他の記事と差し替えた。 ・芸能/スポーツ面の記事では、肩書を伴わない人名が頻出する。 ->人名の認定がしにくい ・試験の対象記事から、名前の羅列のみの記事などは除いてはどうか? ・表付きの記事の扱いはどうするか? このような記事も除くのか? スポーツの記事では、試合結果などの重要な情報が表中に含まれている。 <結論> ・本試験でも、試験に適用する記事は毎日新聞のデータからランダムに選択する。 記事の各分野の割合は、毎日新聞のデータに依存することになる。 ・本試験で使用する記事数は100。 そのうちgeneralに60〜70記事を用い、domain specificに30〜40記事を用いる。 ・名前が羅列してあるような記事は、その羅列の量が極端なものは 試験の対象から除く。 表が使われている記事についても、その表が記事に占める割合が 極端な場合は対象から除く。 これらの判断は、共に関根、江里口が行う。 ※NEの評価について <発言> ・正解ファイルでOPTIONALのタグがついていて、その理由がORGANIZATION とLOCATIONの両方にタグ付けできるようなもの」であるという場合には、 システムがORGANIZATIONかLOCATIONのどちらかのタグを付けた場合に ある程度の点を与えてはどうか ・現在はタグとカテゴリ共に正解した時のみ点が与えられるが、ORGANIZATIONと LACATIONの両方にタグ付けできるようなものは、本来の正解の方ではないタグ が付いてもある程度の点を与えてはどうか? ・記事の分野別の評価をしてもらえないか? <結論> ・今回はカテゴリまで含めて一致した時のみ正解とする。 ・分野別の評価を行う。 分野の定義は、毎日新聞のデータのSECTION部に準拠する。 2. 現行の定義を、この時点で変えることの是非 すでにシステムを作り込んでいる所もあるだろうし、トレーニングデータ や予備試験のデータでの定義と異なってしまう。(もちろん、新定義によ るデータの作成の努力は行なうつもりではあるが) 基本的には、あまり 定義は変えたくはない。問題があれば、OPTIONALを増すという方向が妥当 か? <発言> ・今のところ、判断が難しいものはOPTIONALとしている。 <結論> ・OPTIONALは範囲、対象の確定ができない時に用いる。 ・正解のOPTIONALの一部に判定結果で他のタグが付いていたら0カウント。 ・OPTIONALに、具体的に、どのタグを付けるのかで迷ったのかの情報を付加しておく。 ->将来、より柔軟な正解判定を行うことができる。今回の評価には採用しない。 <現行の定義を変えることの是非に対する結論> ・内容を議論し、実際に問題が発生してから考える。 3. 複合名称の扱い * 複合名詞中の固有表現の扱い オーデコロン 江戸っ子 フランス人形 漢字 アメリカンコーヒー 文相 - --江里口提案----------------------------- 「普通名詞化している」「慣用表現となっている」という判断基準を次のよ うな順序で判断するのはどうでしょうか? ・広辞苑に項目名にあがっていた場合はひとまとまりの語と判断する。 ・ABという名詞連続が「AのB」で言い替えられるときは、ひとまとまり の語としない。 言い替えた場合に別の意味になる場合は、ひとまとまりの語 ・日本語では地名でないものは地名としない。(ウィナー、アメリカン、ナ ポリタンなど) ・上記の条件に適合しても、他と矛盾がある場合、あるいは揺れがあるもの はOPTIONALにする。 ここは、正解作成者の判断にまかせる。 野口さんの例を広辞苑で辞書びきすると、次のようになります。 ◎広辞苑に載っているもの フランス料理,パリジェンヌ,江戸っ子,京女,東男,瀬戸物,唐きび (唐黍),五 右衛門風呂,川崎病,ハンセン氏病 (ハンセン病で記載),漢字,英語, ロイド眼鏡(ロイドがセルロイドからという語源説もあり), オーデ・コロン などが ◎載っていないもの フランス人形, アメリカンコーヒー (アメリカンという項目に、アメリカンコーヒーの略と はありましたが..) - ------------------------------- 米軍機 衆参議長 労働党委員 沖電気関西研究所長 来日 訪米 訪韓 在米 在エジプト 博多人形 鈴木家 メディチ家 フィリピン人 - --現案----------------------------- 基本的にすべて分割し、複合表現の中にある固有名は抽出する。ただし、 その中で語源を辿らなければいけないようなものや、その点で怪しいもの はすべてOPTIONALとする。 江里口提案は提案の上に書いたような、本当に普通名詞化しているような 単語にはいいが、提案の下に書いたような例だと、判定がより複雑になる。 例えば、「訪韓」、「フィリピン人」や「鈴木家」が辞書にないからと 言って、デフォルトの操作として分割しタグ付けしていいかというと、そう ではない。それを正当化するためには、「訪日」「訪米」、「米国人」 「日本人」「メディチ家」「ロクフェラー家」などその表現に関連した 表現を辞書で検索して、すべてにおいてない場合にやっと、タグ付けが できる。もし、ひとつでもそういった表現があればOPTIONALになる。 江里口提案では、このような複雑な操作をしなければいけないが、現案で あれば、ほとんどの場合悩まずにタグ付けができる。(これが第2回の ミーティングで結論付けられた理由でもある。) - ---------------------------------------- <発言> ・「普通名詞化している」「慣用表現となっている」の判断の拠り所を 辞書に求めるのは疑問。 <結論> ・現在の定義を維持。 ・デフォルトの定義に書かれていないものはOPTIONALとする。 * 地名+組織名の扱い ( * 3.1.3.A の組織前の国名の扱い) 現案では分割しているが、連続名詞の上下関係の場合というのとの整合性 在韓米軍ヘリコピター 米軍立川基地 在ナイジェリア日本大使館 (正式名称) イスラエル建国記念日 ニュージーランド国会 韓国三星 <発言> ・正式名称ならば、一つにまとめたい。 ・正式名称か否かは辞書を使う必要がある。 ->タスクとして面白くない。 ・正式名称にこだわらず、全てを一まとまりにするのはどうか? ・分割してあるものをまとめることはできるが、逆は不可。 <結論> ・基本的に原案通りに分割する。ただし、正式名称はまとめる。 4. 固有物名について * 固有名とクラス 魚沼産コシヒカリ 新潟産コシヒカリ <結論> ・正式名は全体を固有物と認定する。 上の例では、「魚沼産コシヒカリ」は商標として登録されているので 正式名と認定する。怪しいものはOPTIONALとする。 ・「コシヒカリ」はクラスとして固有物とは認定しない。 ・他は現状維持。 * 法律・条約等の範囲 組合の活動方針 米国の最恵国待遇 上海コミュニケ <結論> ・「」付きなど、明らかに固有物名と分かるものには全体にタグを付ける。 ・一般名詞的に使われているものはタグは付けない。 ・現実に文書などの形で存在するものは、法律、条約として認定し、固有物名とする。 * 株は商品名か (現状は株も商品であるとしている) - ---江里口提案-------- 株は固有物名にしないという例外の定義を作る or 株が後についた場合のみ株として扱い、それ以外は組織名と考える。 という例外的な定義をつくる。 [理由] 株式欄の企業名は株を指すか、企業名を指すか人間にも判断できない ものがあるため、株は固有物名にしないという例外の定義を作る方が 混乱が少なくなる。 例)[株価]日本テレコム低迷続きそう NTTの株価 - ----------------------- <発言> ・generalタスクについては「株」が後ろについた場合のみ株として扱い、 それ以外は組織名と考えるという江里口案の採用を検討。 ・字面のみで判断するのは意味があるのか? ・OPTIONALにする? <結論> ・現案維持。 明らかに株と分かるものはARTIFACT、そうでないものはORGANIZATIONとする。 * サービス名 (現状は文脈により商品とも取っている) MMF ひかり123号 PL保険 抽出対象の見直しが必要か? (例:商品名だけに絞るなど) <発言> ・「ひかり」のみではクラスだから固有物名ではない。もし商標ならARTIFACT。 では「ひかり123号」は? <結論> ・MMF、PL保険は(「りんご」と同等な扱いとして)クラス。 ・「ひかり123号」は、直観的には特定の車両を指すと考えられるが、 物理的な車両は使い回されているということを考えると、「ひかり123号」は JRが提供しているサービスと考えられる。 ・サービス自体は固有物とする。 ・便名はサービス。 5. 時間表現の「特定の時」の定義の解釈 (特定の時の定義追加/削除案を提案) 一般的に人が知っている特定の時のみにするか? 特定である事は知っていても、それがいつだかは一般には知られていない ような物も特定の時とするか? 西暦10年冬至 山岸連合時代 <結論> ・実時間のタイムライン上にマッピングできるものは、その具体的な時期を 確定できなくても時間表現と認定する。 ・照応的な表現でないもののみを認定する。 ・「西暦10年冬至」は認定。 「山岸連合時代」も認定。 ある秋の日 -> 「ある秋」、「日」をそれぞれ時間表現とする。 1998年.......。この年.......。-> 「この年」は照応であるので認定しない。 1998年.......。この夏.......。-> 「夏」のみを認定。「この」は1998年を 指す照応であるから固有表現として認定しない。 この夏 -> 記事中のこれ以前の部分に「この」の指すものが明示されていない場合 「この夏」全体を認定。 6. 固有名詞的表現の解釈 * 普通名詞が固有の物を指す場合 新聞の記事の終りに(社会部)というようなものがある場合や 文脈から何処の会社の総務部か分るような場合の「総務部」。 - -------------------- (1) NTT総務部長 (2) ○○はNTTに入社、総務部に配属。 (3) ○○はNTTに入社。...総務部時代には、.... (4) 各社の総務部が集まって.... ◎新聞記事の特有の表現:[最後の出展を表す部署、支社名] (5) ......。 (社会部) (6) ......。 (ローマ支局) - -------------------- 上記の6つのうちどれを取って、どれを取らないか? 現在は、固有名詞が内部にあるかどうかで線引きをしている。 (その意味では、文脈(意味)ではなく、表記がキーである。) 現状は、その線の外にあるものにはOPTIONALを付けた(総務本部)。 - ---関根の疑問----- 井佐原さんのオフィスがあるビル NTT本社の総務部 トヨタのカローラ さくら銀行の福岡支店 ニュージーランドの国会 ニューヨークの自由の女神 ニューヨーク大学の関根聡 において 「ビル」「総務部」「カローラ」「福岡支店」「国会」「自由の女神」「関根聡」は 文脈上では、すべて、世界にひとつしかない固有の物を指していると考えられる。 どこが違うのか? どこかで線を引かなければいけないのなら、 固有表現は、固有名詞を含む物、または、普通名詞的な 表現でも、その事柄が世界や日本に1つしかないような、文脈がなくても 意味的に固有名詞であるような物に限る。 というのはどうでしょうか? - ---------------- - --江里口の疑問------ ※固有名詞的表現の定義に固有名詞、普通名詞が必要な場合は 固有名詞の定義案 - ---------------- <発言> ・普通名詞による固有表現を認定するか否か? ・固有名詞、普通名詞の定義には触れたくない。 <結論> ・個々の記述で判断する。文脈からの解析は行わない。 ・「ローマ支局」や「福岡支店」はそれ単独では固有表現とはしない。 7. 地名の概略表現 首都圏 北極圏 大阪圏内 九州北部 南九州 環太平洋 - --江里口・竹元提案----------- 概略的表現は地名表現に入れないことを原則にしつつ、分割することにより 指している場所が変わる名称は、その概略的表現も含める 具体的には「の」を間に入り、概略的表現を修飾することが可能であれば、 概略的表現は含めない。そうでない場合は含める。 #「概略的表現」という言葉の使い方があっているかどうかあやしいですけど。 上記の例にたいしては、 首都圏 首都の圏とはいえない。首都と首都圏は別の場所 ※ただし、首都を地名ととらない場合は首都圏も 地名とならない。 北極圏 北極の圏とはいえない。北極と北極圏は別の場所 大阪圏内 大阪圏の内といえ、内を大阪圏が修飾している 九州北部 九州の北部といえ、北部を九州が修飾している 南九州 南の九州とはいえない。南九州と九州は別の場所 環太平洋 環の太平洋とはいないい。環太平洋と太平洋は別の場所。 - ----------------------------- <結論> ・現案のまま。 ・「北極圏」における「北極」にはタグをつける。(定義のバグ)