BABYL OPTIONS: Version: 5 Labels: Note: This is the header of an rmail file. Note: If you are seeing it in rmail, Note: it means the file has no messages in it.  1, filed,, Summary-line: 18-Oct eriguchi@lit.rd.nttdata. #Dryrun data Return-Path: Received: from nonki.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id MAA03487; Sun, 18 Oct 1998 12:39:17 -0400 Received: from noreen.cs.nyu.edu by nonki.cs.nyu.edu (SMI-8.6/1.20) id MAA14975; Sun, 18 Oct 1998 12:39:18 -0400 Received: by noreen.cs.nyu.edu (SMI-8.6/1.20) id MAA06218; Sun, 18 Oct 1998 12:39:14 -0400 Date: Sun, 18 Oct 1998 12:39:14 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810181639.MAA06218@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp CC: sekine@nonki.cs.nyu.edu Subject: Dryrun data Content-Type: text Content-Length: 1933 *** EOOH *** Return-Path: Date: Sun, 18 Oct 1998 12:39:14 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) To: eriguchi@lit.rd.nttdata.co.jp CC: sekine@nonki.cs.nyu.edu Subject: Dryrun data Content-Type: text Content-Length: 1933 江里口さん: 定義については色々ありがとうございました。 やはり、本試験前にこの前のようなミーティングを一回やった方が いいでしょうかね? 問題になりそうな表現を予備試験では沢山入れて おいた方が盛り上がるかもしれませんね。 :-) ただ、もちろん、それも面倒ですし、正解作成も大変ですから、 適当に記事を抜き出しました。分野におけるバランスには注意しましたが、 あまりに長いものや、内容のほとんどないものは除外しています。 このメイルではteaに使える記事番号のリスト送ります。 このメイルのリストをNE_DRYRUN.lstとして以下のコマンドを走らせると 同じ記事を抽出できる筈です。 tea -a NE_DRYRUN.lst .../mai94.sgml > NE_DRYRUN.sgml 40記事なのでタグ付けは半日くらいでできると思います。 なるべく早目に終らせて、定義の方にも反映させたいと思います。 最終的な正解を作る前に重要そうな問題があったら定義に反映 できたらいいと思います。 どのくらいでできますか? 僕は明日(月曜)にやるつもりです。 できたらすぐに、teaのindexファイルを送ります。 関根 --NE_DRYRUN.lst---------------------- DOCNO 940911001 DOCNO 940911006 DOCNO 940911011 DOCNO 940911016 DOCNO 940911022 DOCNO 940911026 DOCNO 940911031 DOCNO 940911037 DOCNO 940911041 DOCNO 940911047 DOCNO 940911051 DOCNO 940911057 DOCNO 940911061 DOCNO 940911066 DOCNO 940911071 DOCNO 940911077 DOCNO 940911080 DOCNO 940911086 DOCNO 940911092 DOCNO 940911096 DOCNO 940911100 DOCNO 940911106 DOCNO 940911111 DOCNO 940911116 DOCNO 940911122 DOCNO 940911126 DOCNO 940911131 DOCNO 940911136 DOCNO 940911141 DOCNO 940911146 DOCNO 940911153 DOCNO 940911156 DOCNO 940911161 DOCNO 940911166 DOCNO 940911171 DOCNO 940911176 DOCNO 940911181 DOCNO 940911187 DOCNO 940911191 DOCNO 940911196  1, answered,, Summary-line: 19-Oct eriguchi@lit.rd.nttdata.c #[irex 79] NE definition Return-Path: Received: from noreen.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id DAA14119; Mon, 19 Oct 1998 03:52:06 -0400 Received: from ms.nttdata.co.jp by noreen.cs.nyu.edu (SMI-8.6/1.20) id DAA06596; Mon, 19 Oct 1998 03:52:05 -0400 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id QAA20111 for ; Mon, 19 Oct 1998 16:52:04 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id QAA23565 for ; Mon, 19 Oct 1998 16:52:03 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id QAA05963 for ; Mon, 19 Oct 1998 16:52:02 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (eriguchi@pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8/3.6W-lit-server-05/22/98) with SMTP id QAA11499; Mon, 19 Oct 1998 16:52:01 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA01376; Mon, 19 Oct 98 16:48:28 JST Date: Mon, 19 Oct 98 16:48:28 JST From: Yoshio Eriguchi Message-Id: <9810190748.AA01376@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Sun, 18 Oct 1998 12:00:30 -0400 <199810181600.MAA06208@noreen.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 3345 *** EOOH *** Return-Path: Date: Mon, 19 Oct 98 16:48:28 JST From: Yoshio Eriguchi To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Sun, 18 Oct 1998 12:00:30 -0400 <199810181600.MAA06208@noreen.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 3345 江里口です。 質問にあった複合名詞についての回答です。 基本的にdf981018.txtの定義にそって考えています。 複合名詞に含まれる名称は全て抽出するという前回の議事の決定事項を 覆すことは、皆さんに説明はなくてもだいじょうぶでしょうか? 現状は私が皆さんに提案したレベルであり、皆さんからの合意がとれたとは 思えませんので。 >複合名詞について、タグ付けをやってみました。 >実際にやってみると問題は出てきます。 >混乱を避けるためメイリングリストには出していません。 >(建前が崩れますが)二人で決めてしまいましょう。 >以下どう思いますか? >その他定義は、 >http://cs.nyu.edu/cs/projects/proteus/irex/NE/df981018.txt >にあります。これが決まるまでアナウンスはしません。 ◎下記の名称は、下記のタグ付けで問題ないと思います。 >労働党員 >沖電気関西研究所長 >来日 >訪米 >文相 >農水大臣 >フランス料理 ◎つぎの二つは、下記のようにタグ付けしたいですが、 どの定義からこのようにタグ付けされるかが不可解かもしれません。 少なくと、定義の例には必ず載せるようにしましょう。 >議長 >米軍機 ◎つぎの定義は、タグの付け方がことなります。 もし理解があれば教えて下さい。 >鈴木家 >フランス人形 >フィリピン人 ・鈴木家 鈴木家 <- これまでは一貫してこのタグ付けでした。 ・フランス人形 3.1.A で 基準辞書を広辞苑にした場合は、 ・基準辞書に項目として載っておらず、 ・「フランス」の「人形」と”の”を入れて置き換え可能で、 ・矛盾、揺れがあるようには私には思えない ので、 フランス人形 となりますが、何か関根さんの判断基準があるのでしょうか。 ・フィリピン人 フィリピン人 これも、3.1.Aの定義からは、最後の矛盾、揺れ以外では フィリピン人 になると思います。 以前の指摘があった、フィリピン人は気持ち悪いという 指摘が、揺れということになっているんでしょうか? 人にすることは、私としてもよい判断 だとは思いますが、どういう説明になるのでしょうか? 私の想定説明案の例: - 辞書項目にはないが一般的には一つの語として考える方が適当 - アラブ人、クルド人など同型の語に矛盾がでるので。 - ○○人は、で統一する。 こちらからの質問です。 次の名称はどうタグ付けするのでしょうか? 在韓米軍ヘリコプター 在米軍ヘリコプター 在韓米軍ヘリコプター 米軍立川基地の拡張計画 立川基地の拡張計画 米軍立川基地の拡張計画 の拡張計画 私の場合は、一番上のタグ付けをしますが、説明は難しいです。 -- Eriguchi  1,, Summary-line: 19-Oct eriguchi@lit.rd.nttdata.c #Dryrun data Return-Path: Received: from noreen.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id EAA14164; Mon, 19 Oct 1998 04:09:37 -0400 Received: from ms.nttdata.co.jp by noreen.cs.nyu.edu (SMI-8.6/1.20) id EAA06603; Mon, 19 Oct 1998 04:09:36 -0400 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id RAA06106 for ; Mon, 19 Oct 1998 17:09:35 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id RAA25376 for ; Mon, 19 Oct 1998 17:09:35 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id RAA06229 for ; Mon, 19 Oct 1998 17:09:34 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (eriguchi@pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8/3.6W-lit-server-05/22/98) with SMTP id RAA11709 for ; Mon, 19 Oct 1998 17:09:34 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA01484; Mon, 19 Oct 98 17:06:01 JST Date: Mon, 19 Oct 98 17:06:01 JST From: Yoshio Eriguchi Message-Id: <9810190806.AA01484@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Sun, 18 Oct 1998 12:39:14 -0400 <199810181639.MAA06218@noreen.cs.nyu.edu> Subject: Dryrun data Content-Type: text Content-Length: 1145 *** EOOH *** Return-Path: Date: Mon, 19 Oct 98 17:06:01 JST From: Yoshio Eriguchi To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Sun, 18 Oct 1998 12:39:14 -0400 <199810181639.MAA06218@noreen.cs.nyu.edu> Subject: Dryrun data Content-Type: text Content-Length: 1145 江里口です。 >定義については色々ありがとうございました。 >やはり、本試験前にこの前のようなミーティングを一回やった方が >いいでしょうかね? 問題になりそうな表現を予備試験では沢山入れて >おいた方が盛り上がるかもしれませんね。 :-) >ただ、もちろん、それも面倒ですし、正解作成も大変ですから、 >適当に記事を抜き出しました。分野におけるバランスには注意しましたが、 >あまりに長いものや、内容のほとんどないものは除外しています。 >このメイルではteaに使える記事番号のリスト。次のメイルでは記事そ >のものを送ってしまいます。 現段階では、実際にいくつかデータにタグ付けして問題点を洗い出す やり方でよいと思います。定義が固まったら、開発用データも一度 定義変更にともなったアップデート版を公開する必要があると思います。 >40記事なのでタグ付けは半日くらいでできると思います。 >なるべく早目に終らせて、定義の方にも反映させたいと思います。 >最終的な正解を作る前に重要そうな問題があったら定義に反映 >できたらいいと思います。 努力します。早ければ今日中に、遅くとも今週中にタグ付けします。 -- Eriguchi  1, answered,, Summary-line: 19-Oct eriguchi@lit.rd.nttdata.c #[irex 79] NE definition Return-Path: Received: from noreen.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id FAA14564; Mon, 19 Oct 1998 05:30:25 -0400 Received: from ms.nttdata.co.jp by noreen.cs.nyu.edu (SMI-8.6/1.20) id FAA06624; Mon, 19 Oct 1998 05:30:24 -0400 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id SAA03844 for ; Mon, 19 Oct 1998 18:30:24 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id SAA02634 for ; Mon, 19 Oct 1998 18:30:23 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id SAA07420 for ; Mon, 19 Oct 1998 18:30:22 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (eriguchi@pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8/3.6W-lit-server-05/22/98) with SMTP id SAA12466 for ; Mon, 19 Oct 1998 18:30:22 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA01775; Mon, 19 Oct 98 18:26:49 JST Date: Mon, 19 Oct 98 18:26:49 JST From: Yoshio Eriguchi Message-Id: <9810190926.AA01775@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Sun, 18 Oct 1998 12:00:30 -0400 <199810181600.MAA06208@noreen.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 852 *** EOOH *** Return-Path: Date: Mon, 19 Oct 98 18:26:49 JST From: Yoshio Eriguchi To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Sun, 18 Oct 1998 12:00:30 -0400 <199810181600.MAA06208@noreen.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 852 江里口です。 >その他定義は、 >http://cs.nyu.edu/cs/projects/proteus/irex/NE/df981018.txt >にあります。これが決まるまでアナウンスはしません。 定義についてのコメントです。 2.6のF-Mmeasureの定義が間違っています 正しくは、 F = (b + 1)*P*R / (b^2*P + R) です。 あと、最初の行の適合率はprecisionに、再現率はRecallと 大文字、小文字がいり乱れています。 3.1 固有名詞的表現の例が不適切な気がします。 (例:それ、当委員会、会議) 会議は、もともと名称です。 例えば、 (例:それ、当局、同県、委員会) に変更したほうが良いと思います。 3.1.3 地名 のところで、 オランダ人 は、 人 にするのであれば、同様に変更すべきです。 -- Eriguchi  1, answered,, Summary-line: 19-Oct eriguchi@lit.rd.nttdata. #[irex 79] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id VAA27206; Mon, 19 Oct 1998 21:24:40 -0400 Received: from nonki.cs.nyu.edu by cs.nyu.edu (SMI-8.6/1.20) id VAA06110; Mon, 19 Oct 1998 21:24:39 -0400 Received: by nonki.cs.nyu.edu (SMI-8.6/1.20) id VAA15183; Mon, 19 Oct 1998 21:24:07 -0400 Date: Mon, 19 Oct 1998 21:24:07 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810200124.VAA15183@nonki.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Mon, 19 Oct 98 18:26:49 JST <9810190926.AA01775@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 333 *** EOOH *** Return-Path: Date: Mon, 19 Oct 1998 21:24:07 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Mon, 19 Oct 98 18:26:49 JST <9810190926.AA01775@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 333 江里口さん: 色々ありがとうございます。 実際やってみましたが、なかなか大変でした。 OPTIONALになるもの本当に分らないものも両方?のタグを付けたのですが 20ー30くらいあったような気がします。とりあえず明日もう一度見てみようと 思っています。 その他色々ありがとうございます。 関根  1,, Summary-line: 20-Oct eriguchi@lit.rd.nttdata. #[irex 79] NE definition Return-Path: Received: from nonki.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id RAA20013; Tue, 20 Oct 1998 17:08:03 -0400 Received: from noreen.cs.nyu.edu by nonki.cs.nyu.edu (SMI-8.6/1.20) id RAA15563; Tue, 20 Oct 1998 17:08:02 -0400 Received: by noreen.cs.nyu.edu (SMI-8.6/1.20) id RAA08423; Tue, 20 Oct 1998 17:07:57 -0400 Date: Tue, 20 Oct 1998 17:07:57 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810202107.RAA08423@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp CC: sekine@nonki.cs.nyu.edu In-reply-to: Satoshi Sekine's message of Mon, 19 Oct 1998 21:24:07 -0400 <199810200124.VAA15183@nonki.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 2667 *** EOOH *** Return-Path: Date: Tue, 20 Oct 1998 17:07:57 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) To: eriguchi@lit.rd.nttdata.co.jp CC: sekine@nonki.cs.nyu.edu In-reply-to: Satoshi Sekine's message of Mon, 19 Oct 1998 21:24:07 -0400 <199810200124.VAA15183@nonki.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 2667 江里口さん: 2回目のタギングをして、付き合わせてみました。データは 以下を擦り合せてから送りたいと思います。 1.複合名詞 まずはに大きな問題ですが、やはり前の通り全部抜き出すの方が楽ですし、 そのような方向にしたくなってしまいました。問題は オーデコロンのような場合ですが、このように定義できないでしょうか? その固有名詞ではないかと思えるの部分を他の一般的な固有名詞に 置き替えてみて、広範囲に置き替えが可能な場合には固有名詞とする。 ある特定の固有名詞でしかあてはまらない場合には固有名詞としない。 オーデトウキョウというものは一般に知られていないが、 訪日は訪米、訪英、訪エ(エジプト)、等と言える。ただ、英語のような 場合には日語、エ語とは言えないのでオプショナルにする。 ドイツ語の場合にはタグ付けをしてよい。。。 または、 語源まで逆登らなければいけないような場合には、対象としないとか 曖昧に書いておいて、例を挙げておくとか。 2.「未明」 METでは時間ではないとなっていましたが、IREXの定義には 入っていませんでした。入れるのが適当かと思いますがどうでしょう? 3.武蔵野音大大学院 組織名として「武蔵野音大」大学院としたいと思いますが、 どうでしょう? 東京音大研究科なんてのもあります。 4.郵便番号 〒150東京都渋谷区恵比寿4の20の1 で最初の「〒150」は入れますか? 入れない方は自然かも思います。 5.「即日」、「一両日」 日付? 相対的表現がOKなので、タグつけした方がいいと思います。 6.「みみの日」はどうなったんでしたっけ? 定義には落していました。 「鉄道の日」というのが出てきます。 タグ付けするのでしたっけ? 「開港記念日」は駄目なんですよね? # その他曖昧だと分っているのだけでもは10数個ありますが、とりあえず # 上記のは定義にない事なので擦り合せておいた方がいいと思います。 # 上記の合意が取れた定義を元にタグ付けした結果によって # 人間のパフォーマンスを求めませんか? 関根 P.S. それから、ここらあたりの話を元に共同で言語処理学会全国大会 あたりに「固有名詞とは」というような話で論文を書きませんか? でだしは 固有名詞というものは固有の物を指す名詞と一般に定義され、その 認定は容易であると思われがちであるが、本論文では固有表現の認定を 目的としたコンテストIREX−NEでの正解作成の際に経験した 問題点などをまとめ、具体例を用いながらその困難さについて議論する。 固有名詞の研究にはこれまで()()()等があるが、網羅的に分りやすい 基準を作成しようとした点で、本研究はユニークであると言える。 過去の研究については調査していませんが、言語学系でそんな研究が されている可能性はありますよね。。。  1,, Summary-line: 21-Oct eriguchi@lit.rd.nttdata.c #[irex 79] NE definition Return-Path: Received: from noreen.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id KAA02194; Wed, 21 Oct 1998 10:23:19 -0400 Received: from ms.nttdata.co.jp by noreen.cs.nyu.edu (SMI-8.6/1.20) id DAA08834; Wed, 21 Oct 1998 03:39:54 -0400 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id QAA27879 for ; Wed, 21 Oct 1998 16:39:40 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id QAA08109 for ; Wed, 21 Oct 1998 16:39:40 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id QAA02253 for ; Wed, 21 Oct 1998 16:39:39 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (eriguchi@pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8/3.6W-lit-server-05/22/98) with SMTP id QAA03191 for ; Wed, 21 Oct 1998 16:39:39 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA11745; Wed, 21 Oct 98 16:36:04 JST Date: Wed, 21 Oct 98 16:36:04 JST From: Yoshio Eriguchi Message-Id: <9810210736.AA11745@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@noreen.cs.nyu.edu In-Reply-To: Yoshio Eriguchi's message of Mon, 19 Oct 98 16:48:28 JST <9810190748.AA01376@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 2615 *** EOOH *** Return-Path: Date: Wed, 21 Oct 98 16:36:04 JST From: Yoshio Eriguchi To: sekine@noreen.cs.nyu.edu In-Reply-To: Yoshio Eriguchi's message of Mon, 19 Oct 98 16:48:28 JST <9810190748.AA01376@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 2615 関根さん。 私が前に出したメイルの回答を下さい。 それによって、正解が異なる可能性がありますので、 正解作成作業ができません。 >◎つぎの定義は、タグの付け方がことなります。 > もし理解があれば教えて下さい。 これは文がおかしかったです。失礼しました。 本当は、下記のような文になります。 ◎つぎの名称は、定義とタグの付け方が異なります。 もし理由があれば教えて下さい。 > >鈴木家 > >フランス人形 > >フィリピン人 > >・鈴木家 >鈴木家 <- これまでは一貫してこのタグ付けでした。 > >・フランス人形 >3.1.A で 基準辞書を広辞苑にした場合は、 > ・基準辞書に項目として載っておらず、 > ・「フランス」の「人形」と”の”を入れて置き換え可能で、 > ・矛盾、揺れがあるようには私には思えない >ので、 > フランス人形 >となりますが、何か関根さんの判断基準があるのでしょうか。 > >・フィリピン人 > フィリピン人 > >これも、3.1.Aの定義からは、最後の矛盾、揺れ以外では > フィリピン人 >になると思います。 >以前の指摘があった、フィリピン人は気持ち悪いという >指摘が、揺れということになっているんでしょうか? > >人にすることは、私としてもよい判断 >だとは思いますが、どういう説明になるのでしょうか? > >私の想定説明案の例: > - 辞書項目にはないが一般的には一つの語として考える方が適当 > - アラブ人、クルド人など同型の語に矛盾がでるので。 > - ○○人は、で統一する。 結局、鈴木家、フランス人形、フランス人のタグはどうするのですか? >こちらからの質問です。 > >次の名称はどうタグ付けするのでしょうか? > >在韓米軍ヘリコプター > 在米軍ヘリコプター > 在韓米軍ヘリコプター > >米軍立川基地の拡張計画 > 立川基地の拡張計画 > 米軍立川基地の拡張計画 > の拡張計画 > >私の場合は、一番上のタグ付けをしますが、説明は難しいです。 こちらの方は、できれば理由をつけた回答をお願いしたいです。 -- Eriguchi  1, answered,, Summary-line: 21-Oct eriguchi@lit.rd.nttdata.c #[irex 79] NE definition Return-Path: Received: from noreen.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id KAA02214; Wed, 21 Oct 1998 10:23:51 -0400 Received: from ms.nttdata.co.jp by noreen.cs.nyu.edu (SMI-8.6/1.20) id AAA08771; Wed, 21 Oct 1998 00:02:42 -0400 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id NAA25708 for ; Wed, 21 Oct 1998 13:02:34 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id NAA16192 for ; Wed, 21 Oct 1998 13:02:34 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id NAA28707 for ; Wed, 21 Oct 1998 13:02:33 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (eriguchi@pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8/3.6W-lit-server-05/22/98) with SMTP id NAA00993 for ; Wed, 21 Oct 1998 13:02:32 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA10970; Wed, 21 Oct 98 12:58:58 JST Date: Wed, 21 Oct 98 12:58:58 JST From: Yoshio Eriguchi Message-Id: <9810210358.AA10970@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Tue, 20 Oct 1998 17:07:57 -0400 <199810202107.RAA08423@noreen.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 5272 *** EOOH *** Return-Path: Date: Wed, 21 Oct 98 12:58:58 JST From: Yoshio Eriguchi To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Tue, 20 Oct 1998 17:07:57 -0400 <199810202107.RAA08423@noreen.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 5272 関根さん: >1.複合名詞 > >まずはに大きな問題ですが、やはり前の通り全部抜き出すの方が楽ですし、 >そのような方向にしたくなってしまいました。問題は >オーデコロンのような場合ですが、このように定義できないでしょうか? どのような場合が、面倒なのでしょうか? 私は、どちらかというと、どちらも同程度に難しいのですが。 次の定義は、さらに面倒に更に悩みが増える気がします。 >その固有名詞ではないかと思えるの部分を他の一般的な固有名詞に >置き替えてみて、広範囲に置き替えが可能な場合には固有名詞とする。 >ある特定の固有名詞でしかあてはまらない場合には固有名詞としない。 >オーデトウキョウというものは一般に知られていないが、 >訪日は訪米、訪英、訪エ(エジプト)、等と言える。ただ、英語のような >場合には日語、エ語とは言えないのでオプショナルにする。 >ドイツ語の場合にはタグ付けをしてよい。。。 英語の場合は、仏語、独語、日語(これは稀ですがあります)、蘭語 などは、存在します。 この程度では、広範囲とは言えないのでしょうか? 江戸っ子は、博多っ子、広島っ子、ロンドンっ子、パリっ子など かなり言いかえができるので、江戸っ子でしょうか? 逆に、訪日は、訪日本、訪東京、訪パリなどとは言えないけど 広範囲といえるのですか? など、悩み出したらきりがありません。 従って、野口さんの提案1をベースにしたものか、元の定義にするか どちらかの方がよいと思います。 皆に認められていると言う点では、元の定義にする方がよいと思います。 ただし、元の定義の場合は、正解作成者のほうで全てのOPTIONALの可能性 を検討できないということは、周知した方がよいと思います。 元の定義にした場合は、 ・語源まで逆登らなければいけないような場合 ・正解作成者の独断 (英語など) はOPTIONALになるとは思いますが。 >2.「未明」 > >METでは時間ではないとなっていましたが、IREXの定義には >入っていませんでした。入れるのが適当かと思いますがどうでしょう? これは、私にとって怨みのある語です。 MET-2では、トレーニングデータではタグ付けされていて、 dry runはタグ付けがされなくなっていた語です。 で、結局formal runではタグつけをしたものが正解になっていて。。。。 私自身は「深夜」「早朝」「明け方」と同じ扱いにするのが適当と思います。 従って入れるほうが適当だと思います。例の中にも入れていた方が安心です。 >3.武蔵野音大大学院 > >組織名として「武蔵野音大」大学院としたいと思いますが、 >どうでしょう? 東京音大研究科なんてのもあります。 3.1.Cの定義からは、武蔵野音大大学院 とするのが適当でしょう。たぶん、連続固有表現で、前のものが後のものの スーパークラスになっていると思います。 と、思いながら実際の記事を見ると、 武蔵野音大大学院修了 東京音大研究科修了 ですね。 たぶん、大学院、研究科は、修学コース名であり、組織とは違うと 言い切れば、問題はないと思います。(ちょっと苦しいですが) >4.郵便番号 > >〒150東京都渋谷区恵比寿4の20の1 > >で最初の「〒150」は入れますか? >入れない方は自然かも思います。 入れないことにして、定義に一言、郵便番号は地名に入らないと うたっておきましょう。例も入れた方がいいかも。 >5.「即日」、「一両日」 > >日付? >相対的表現がOKなので、タグつけした方がいいと思います。 即日、当日、同日、この違いを例ではっきりさせた方がいいと思います。 相対表現でかつ照応表現ととらえることもできるので、どちら側から みても例外になると思います。説明がつけばいいですが、私は思いつきません。 ここは、決め打ちにするしかないでしょう。 #広辞苑では、即日 = 当日なので。 「一両日」は、難しいですね。 相対表現ととるか、時間の長さととるかだと思います。 次の表現は、現状ではすべて私はタグをつけないと思います。 一両日中に発表 二、三日中に発表 今日から二日間で発表 ちょっとずるいですが、指摘があるまではタグなし。 指摘があり、適切な理由があれば、にするというのは どうでしょう。 >6.「みみの日」はどうなったんでしたっけ? 忘れました。どうでしたっけ? >定義には落していました。 >「鉄道の日」というのが出てきます。 >タグ付けするのでしたっけ? 「開港記念日」は駄目なんですよね? うーん。開校記念日はダメだったような気がしますが。。。。 ここは一度皆さんに気いたほうがいいのでしょうか。 感覚では、 「耳の日」、「鉄道の日」はタグ付けしていいと思います。 ># その他曖昧だと分っているのだけでもは10数個ありますが、とりあえず ># 上記のは定義にない事なので擦り合せておいた方がいいと思います。 > ># 上記の合意が取れた定義を元にタグ付けした結果によって ># 人間のパフォーマンスを求めませんか? 人間のパフォーマンスを求めて、会議で発表するのはいいと思います。 >P.S. それから、ここらあたりの話を元に共同で言語処理学会全国大会 > あたりに「固有名詞とは」というような話で論文を書きませんか? > でだしは すみません。今の会社の情勢では、このテーマでの執筆および 発表は難しいです。 -- Eriguchi  1,, Summary-line: 21-Oct eriguchi@lit.rd.nttdata. #[irex 79] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id LAA06667; Wed, 21 Oct 1998 11:31:59 -0400 Received: from noreen.cs.nyu.edu by cs.nyu.edu (SMI-8.6/1.20) id KAA03152; Wed, 21 Oct 1998 10:43:04 -0400 Received: by noreen.cs.nyu.edu (SMI-8.6/1.20) id KAA09010; Wed, 21 Oct 1998 10:42:59 -0400 Date: Wed, 21 Oct 1998 10:42:59 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810211442.KAA09010@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Wed, 21 Oct 98 12:58:58 JST <9810210358.AA10970@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 3433 *** EOOH *** Return-Path: Date: Wed, 21 Oct 1998 10:42:59 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Wed, 21 Oct 98 12:58:58 JST <9810210358.AA10970@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 3433 江里口さん: 忙しい所ありがとうございます。 まず、ここで決定した事は当然、NE定義には含めます。 例を入れる事の重要さも理解しています。 > 従って、野口さんの提案1をベースにしたものか、元の定義にするか > どちらかの方がよいと思います。 > 皆に認められていると言う点では、元の定義にする方がよいと思います。 > ただし、元の定義の場合は、正解作成者のほうで全てのOPTIONALの可能性 > を検討できないということは、周知した方がよいと思います。 > 元の定義にした場合は、 > ・語源まで逆登らなければいけないような場合 > ・正解作成者の独断 (英語など) > はOPTIONALになるとは思いますが。 はい、元の定義に戻って、このOPTIONALを入れるのが一番簡単だと 思います。 > >2.「未明」 > 私自身は「深夜」「早朝」「明け方」と同じ扱いにするのが適当と思います。 > 従って入れるほうが適当だと思います。例の中にも入れていた方が安心です。 > >3.武蔵野音大大学院 > > > >組織名として「武蔵野音大」大学院としたいと思いますが、 > >どうでしょう? 東京音大研究科なんてのもあります。 > 3.1.Cの定義からは、武蔵野音大大学院 > とするのが適当でしょう。たぶん、連続固有表現で、前のものが後のものの > スーパークラスになっていると思います。 > と、思いながら実際の記事を見ると、 武蔵野音大大学院修了 東京音大研究科修了 > ですね。 > たぶん、大学院、研究科は、修学コース名であり、組織とは違うと > 言い切れば、問題はないと思います。(ちょっと苦しいですが) はい、私も同様の思考経路をたどり同様の結論に落着きました。 > >4.郵便番号 > > > 入れないことにして、定義に一言、郵便番号は地名に入らないと > うたっておきましょう。例も入れた方がいいかも。 はい。 > >5.「即日」、「一両日」 > > > ここは、決め打ちにするしかないでしょう。 > #広辞苑では、即日 = 当日なので。 それでは、即日は入れます。 > 「一両日」は、難しいですね。 > 相対表現ととるか、時間の長さととるかだと思います。 > 次の表現は、現状ではすべて私はタグをつけないと思います。 一両日中に発表 二、三日中に発表 今日から二日間で発表 > ちょっとずるいですが、指摘があるまではタグなし。 > 指摘があり、適切な理由があれば、にするというのは > どうでしょう。 はい、採用させていただきます。 > >6.「みみの日」はどうなったんでしたっけ? > 忘れました。どうでしたっけ? > 「耳の日」、「鉄道の日」はタグ付けしていいと思います。 参加者は多少この議論に飽き飽きしていると思うので、 そろそろ、こっちで決めていった方がいいと思っています。 両方共入れておいて、文句が出たら替えます。 > >P.S. それから、ここらあたりの話を元に共同で言語処理学会全国大会 > > あたりに「固有名詞とは」というような話で論文を書きませんか? > > でだしは > すみません。今の会社の情勢では、このテーマでの執筆および > 発表は難しいです。 そうですか。それは残念です。 僕だけで書くというのも、ちょっと申し訳ない気がしています。 江里口さんと僕なら皆も納得すると思うのですが、IREXの メンバーすべてを入れる訳にはいかないし。。。 少し考えます。 関根  1, answered,, Summary-line: 22-Oct eriguchi@lit.rd.nttdata.c #[irex 79] NE definition Return-Path: Received: from noreen.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id WAA16945; Wed, 21 Oct 1998 22:54:27 -0400 Received: from ms.nttdata.co.jp by noreen.cs.nyu.edu (SMI-8.6/1.20) id WAA09564; Wed, 21 Oct 1998 22:54:22 -0400 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id LAA26693 for ; Thu, 22 Oct 1998 11:53:44 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id LAA13572 for ; Thu, 22 Oct 1998 11:53:43 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id LAA10651 for ; Thu, 22 Oct 1998 11:53:43 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (eriguchi@pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8/3.6W-lit-server-05/22/98) with SMTP id LAA12080 for ; Thu, 22 Oct 1998 11:53:42 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA15879; Thu, 22 Oct 98 11:50:05 JST Date: Thu, 22 Oct 98 11:50:05 JST From: Yoshio Eriguchi Message-Id: <9810220250.AA15879@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 21 Oct 1998 10:42:59 -0400 <199810211442.KAA09010@noreen.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 757 *** EOOH *** Return-Path: Date: Thu, 22 Oct 98 11:50:05 JST From: Yoshio Eriguchi To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 21 Oct 1998 10:42:59 -0400 <199810211442.KAA09010@noreen.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 757 江里口です。 > > >P.S. それから、ここらあたりの話を元に共同で言語処理学会全国大会 > > > あたりに「固有名詞とは」というような話で論文を書きませんか? > > > でだしは > > すみません。今の会社の情勢では、このテーマでの執筆および > > 発表は難しいです。 > >そうですか。それは残念です。 >僕だけで書くというのも、ちょっと申し訳ない気がしています。 >江里口さんと僕なら皆も納得すると思うのですが、IREXの >メンバーすべてを入れる訳にはいかないし。。。 >少し考えます。 私の名前を入れないことに躊躇されるのであれば、気にしなくても いいです。 また、名前を入れるだけの話であれば、上司に説明はできると思い ます。 -- Eriguchi  1,, Summary-line: 21-Oct eriguchi@lit.rd.nttdata. #[irex 79] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id XAA17017; Wed, 21 Oct 1998 23:02:42 -0400 Received: from nonki.cs.nyu.edu by cs.nyu.edu (SMI-8.6/1.20) id XAA15651; Wed, 21 Oct 1998 23:02:40 -0400 Received: by nonki.cs.nyu.edu (SMI-8.6/1.20) id XAA16002; Wed, 21 Oct 1998 23:02:05 -0400 Date: Wed, 21 Oct 1998 23:02:05 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810220302.XAA16002@nonki.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Thu, 22 Oct 98 11:50:05 JST <9810220250.AA15879@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 490 *** EOOH *** Return-Path: Date: Wed, 21 Oct 1998 23:02:05 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Thu, 22 Oct 98 11:50:05 JST <9810220250.AA15879@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 490 江里口さん: そうですか、とりあえず論文の話は今は進められませんので 落ち着いたら考えましょう。 最後にだした定義にしたがって、明日、再度タグつけをしてみます。 他には問題は残っていましたか? 江里口さんから、別系統でメイルがあったのは認識していますが、 複合名詞系の話だったので、それは元の定義+語源までやらなければ いけないのと「英語」のような特殊のは例をもって定義で除外するという 方法で落ち着いたと認識しています。 関根  1,, Summary-line: 22-Oct eriguchi@lit.rd.nttdata.c #[irex 79] NE definition Return-Path: Received: from nonki.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id XAA17034; Wed, 21 Oct 1998 23:10:02 -0400 Received: from ms.nttdata.co.jp by nonki.cs.nyu.edu (SMI-8.6/1.20) id XAA16012; Wed, 21 Oct 1998 23:10:01 -0400 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id MAA12728 for ; Thu, 22 Oct 1998 12:09:59 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id MAA15318 for ; Thu, 22 Oct 1998 12:09:59 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id MAA10900 for ; Thu, 22 Oct 1998 12:09:58 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (eriguchi@pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8/3.6W-lit-server-05/22/98) with SMTP id MAA12273 for ; Thu, 22 Oct 1998 12:09:57 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA15951; Thu, 22 Oct 98 12:06:21 JST Date: Thu, 22 Oct 98 12:06:21 JST From: Yoshio Eriguchi Message-Id: <9810220306.AA15951@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@nonki.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 21 Oct 1998 23:02:05 -0400 <199810220302.XAA16002@nonki.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 790 *** EOOH *** Return-Path: Date: Thu, 22 Oct 98 12:06:21 JST From: Yoshio Eriguchi To: sekine@nonki.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 21 Oct 1998 23:02:05 -0400 <199810220302.XAA16002@nonki.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 790 江里口です。 >Date: Wed, 21 Oct 1998 23:02:05 -0400 >From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) 遅くまでおつかれ様です。 >在韓米軍ヘリコプター > 在米軍ヘリコプター > 在韓米軍ヘリコプター >米軍立川基地の拡張計画 > 立川基地の拡張計画 > 米軍立川基地の拡張計画 > の拡張計画 以上のものについては、論議していた複合名詞の問題だけではないので、 私には、依然として疑問が残っています。特に”米軍立川基地”。 関根さんはどうタギングしますか? -- Eriguchi  1, answered,, Summary-line: 22-Oct eriguchi@lit.rd.nttdata.c #[irex 79] NE definition Return-Path: Received: from nonki.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id HAA18778; Thu, 22 Oct 1998 07:23:54 -0400 Received: from ms.nttdata.co.jp by nonki.cs.nyu.edu (SMI-8.6/1.20) id HAA16075; Thu, 22 Oct 1998 07:23:53 -0400 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id UAA03528 for ; Thu, 22 Oct 1998 20:23:51 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id UAA01381 for ; Thu, 22 Oct 1998 20:23:51 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id UAA18527 for ; Thu, 22 Oct 1998 20:23:50 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (eriguchi@pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8/3.6W-lit-server-05/22/98) with SMTP id UAA17918 for ; Thu, 22 Oct 1998 20:23:49 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA17832; Thu, 22 Oct 98 20:20:12 JST Date: Thu, 22 Oct 98 20:20:12 JST From: Yoshio Eriguchi Message-Id: <9810221120.AA17832@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@nonki.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 21 Oct 1998 23:02:05 -0400 <199810220302.XAA16002@nonki.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 2585 *** EOOH *** Return-Path: Date: Thu, 22 Oct 98 20:20:12 JST From: Yoshio Eriguchi To: sekine@nonki.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 21 Oct 1998 23:02:05 -0400 <199810220302.XAA16002@nonki.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 2585 江里口です。 >他には問題は残っていましたか? ◎組織内のサブ組織名(総務、広報部、ローマ支局など) 定義から判断すると、 「3.1.1 組織名」の複数の人間から構成され何らかの目的を持った組織の 名称であり、 「3.1.1 固有名詞的表現」の普通名詞を利用した照応表現ではないので、 ^^^^^^^^ 組織名としてタグ付けすることになります。 定義を読むと固有のものをさすかどうかという判断基準はなくなったよう にも見受けられます。 次の例では、どのようにタグ付けするのでしょう? (1) NTT総務部長 (2) ○○はNTTに入社、総務部に配属。 (3) ○○はNTTに入社。...総務部時代には、.... (4) 各社の総務部が集まって.... #うまい例が思いつけなくて。 ◎新聞記事の特有の表現: [最後の出展を表す部署、支社名] (5) ......。 (社会部) (6) ......。 (ローマ支局) 参考までに、私の見解は、次のようになります。 (1) NTT総務部長 (2) ○○はNTTに入社、総務部に配属。 (3) ○○はNTTに入社。..総務部時代には、.... (4) 各社の総務部が集まって.... (5) ......。 (社会部) (6) ......。 (ローマ支局) METの時は、(2)がグレー、(3)(4)には付けなかったと記憶していますが、 全部つける方が、定義の変更がなく、(想定する範囲では)正解タグ 作成も容易になると思います。 ◎地名組織名の連続表現 3.1.3.A 組織名の前につく国名 の定義はありますが、 3.1.1.B 政府組織 では、 在ナイジェリア日本大使館となっています。 定義からは、在ナイジェリア日本大使館をつなげる理由が説明できていません。 定義だけからだと、 在ナイジェリア日本大使館 にする方が妥当だと思いますし、 次の例はどのようにタグをつけますか? 次の例はどのようにタグをつけますか? 私の見解はつぎのようになります。 (7) 在ナイジェリア日本大使館 (8) 在米軍ヘリコプター #意見が変わりました。 (9) ベルリン駐在北朝鮮利益代表部 以上、タグ付けしていて悩んだところです。 まだ、すこししかやっていませんが。。。。 #結構、seefuデータを作る時や、ワシントンでの話の #知識を使っている気がしています。 -- Eriguchi  1,, Summary-line: 22-Oct eriguchi@lit.rd.nttdata. #[irex 79] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id UAA26407; Thu, 22 Oct 1998 20:26:03 -0400 Received: from noreen.cs.nyu.edu by cs.nyu.edu (SMI-8.6/1.20) id UAA03853; Thu, 22 Oct 1998 20:26:02 -0400 Received: by noreen.cs.nyu.edu (SMI-8.6/1.20) id UAA10147; Thu, 22 Oct 1998 20:25:56 -0400 Date: Thu, 22 Oct 1998 20:25:56 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810230025.UAA10147@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Thu, 22 Oct 98 20:20:12 JST <9810221120.AA17832@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 2242 *** EOOH *** Return-Path: Date: Thu, 22 Oct 1998 20:25:56 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Thu, 22 Oct 98 20:20:12 JST <9810221120.AA17832@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 2242 ◎組織内のサブ組織名(総務、広報部、ローマ支局など) ローマ支局は組織名で問題ないでしょうが、 他のはちょっと嫌ですね。 例では東工大水泳部というのがあるので、 NTT総務部長はNTT総務部長でいいと 思いますが、単独で出現している時には付けない方が 固有表現という観点からいいような気がします。 これは確かにワシントンだかどっかで議論しましたね。 (1) NTT総務部長 (2) ○○はNTTに入社、総務部に配属。 (3) ○○はNTTに入社。..総務部時代には、.... (4) 各社の総務部が集まって.... (5) ......。 (社会部) (6) ......。 (ローマ支局) METの時は、(2)がグレー、(3)(4)には付けなかったと記憶していますが、 全部つける方が、定義の変更がなく、(想定する範囲では)正解タグ 作成も容易になると思います。 2、3、4、5は付けないとしたいと思いますが。。。 単独で出現した時には固有表現と言えないものにはタグ付けない というように定義してはどうでしょうか? 今回は予備試験ですし、まあ定義の変更は多少いいのではないでしょうか? ◎地名組織名の連続表現 3.1.3.A 組織名の前につく国名 の定義はありますが、 3.1.1.B 政府組織 では、 在ナイジェリア日本大使館となっています。 これは、適用範囲が限られているので、例外規則ということで いいのかと思いました。。でも在韓米軍なんていうのもあるのですね。 まあ、これも例に入れてしまうというのはどうでしょうか? (7) 在ナイジェリア日本大使館 (8) 在米軍ヘリコプター #意見が変わりました。 (9) ベルリン駐在北朝鮮利益代表部 僕は最後のも全部まとめて組織名にしてありました。 たしかに悩んで、大使館の例を見た覚えがあります。 在韓米軍と韓国三星のそれぞれ最初の1文字はちょっと違うような 気もしますが。何とも表現しにくいですけれども。 関根  1,, Summary-line: 22-Oct eriguchi@lit.rd.nttdata. #[irex 79] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id UAA26421; Thu, 22 Oct 1998 20:29:54 -0400 Received: from noreen.cs.nyu.edu by cs.nyu.edu (SMI-8.6/1.20) id UAA03881; Thu, 22 Oct 1998 20:29:53 -0400 Received: by noreen.cs.nyu.edu (SMI-8.6/1.20) id UAA10149; Thu, 22 Oct 1998 20:29:52 -0400 Date: Thu, 22 Oct 1998 20:29:52 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810230029.UAA10149@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Thu, 22 Oct 98 20:20:12 JST <9810221120.AA17832@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 380 *** EOOH *** Return-Path: Date: Thu, 22 Oct 1998 20:29:52 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Thu, 22 Oct 98 20:20:12 JST <9810221120.AA17832@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 380 米軍立川基地の移転問題は 成田空港問題 同様 米軍立川基地の移転問題は でいいのではないでしょうか? 文脈から地名または組織名と確認できる場合には僕は 上下関係とみなしと同様全部をまとめたいと思いますが、、、 米軍立川基地に着陸した戦闘機 関根  1, answered,, Summary-line: 23-Oct eriguchi@lit.rd.nttdata.c #[irex 79] NE definition Return-Path: Received: from noreen.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id VAA27197; Thu, 22 Oct 1998 21:46:40 -0400 Received: from ms.nttdata.co.jp by noreen.cs.nyu.edu (SMI-8.6/1.20) id VAA10212; Thu, 22 Oct 1998 21:46:39 -0400 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id KAA02312 for ; Fri, 23 Oct 1998 10:46:38 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id KAA14224 for ; Fri, 23 Oct 1998 10:46:37 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id KAA23480 for ; Fri, 23 Oct 1998 10:46:36 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (eriguchi@pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8/3.6W-lit-server-05/22/98) with SMTP id KAA23126 for ; Fri, 23 Oct 1998 10:46:36 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA20629; Fri, 23 Oct 98 10:42:57 JST Date: Fri, 23 Oct 98 10:42:57 JST From: Yoshio Eriguchi Message-Id: <9810230142.AA20629@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Thu, 22 Oct 1998 20:25:56 -0400 <199810230025.UAA10147@noreen.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 7045 *** EOOH *** Return-Path: Date: Fri, 23 Oct 98 10:42:57 JST From: Yoshio Eriguchi To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Thu, 22 Oct 1998 20:25:56 -0400 <199810230025.UAA10147@noreen.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 7045 江里口です。 > ◎組織内のサブ組織名(総務、広報部、ローマ支局など) > >ローマ支局は組織名で問題ないでしょうが、 >他のはちょっと嫌ですね。 >例では東工大水泳部というのがあるので、 >NTT総務部長はNTT総務部長でいいと >思いますが、単独で出現している時には付けない方が >固有表現という観点からいいような気がします。 > >これは確かにワシントンだかどっかで議論しましたね。 > (1) NTT総務部長 > (2) ○○はNTTに入社、総務部に配属。 > (3) ○○はNTTに入社。..総務部時代には、.... > (4) 各社の総務部が集まって.... > (5) ......。 (社会部) > (6) ......。 (ローマ支局) > > METの時は、(2)がグレー、(3)(4)には付けなかったと記憶していますが、 > 全部つける方が、定義の変更がなく、(想定する範囲では)正解タグ > 作成も容易になると思います。 > >2、3、4、5は付けないとしたいと思いますが。。。 >単独で出現した時には固有表現と言えないものにはタグ付けない >というように定義してはどうでしょうか? > >今回は予備試験ですし、まあ定義の変更は多少いいのではないでしょうか? 確認です。 関根さんにとっての、今回の固有表現の名称は、どちらが 根幹なのですか? 文脈を考慮して、名称の役割から判断することですか? 文脈を無視して、名称の字面だけで、判断することですか? 今までの議論で、私自信は、文脈を考慮することをベースに、 細かいところで例外を作っていくという方針なのかなと思って 定義について知恵を絞ってきました。 しかしながら、ここ数日のメイルのやりとりで、関根さんが どちらをベースに定義をしたいのか分からなくなりました。 もし、文脈を考慮することを定義にうたうのであれば、(4)の総務 部以外はすべて特定の組織を指すことが分かっているので、組織名 とすべきですし、そうでないなら、例外の定義を作るべきだと思い ます。 > ◎組織内のサブ組織名(総務、広報部、ローマ支局など) >ローマ支局は組織名で問題ないでしょうが、 > (5) ......。 (社会部) > (6) ......。 (ローマ支局) ここが、私には理解できません。 ローマ市局が、組織名であるなら、社会部も立派な組織名だと思います。 どちらも、(毎日新聞社の)一部門であることには変わらないと思います。 > ◎地名組織名の連続表現 > 3.1.3.A 組織名の前につく国名 の定義はありますが、 > 3.1.1.B 政府組織 では、 > 在ナイジェリア日本大使館となっています。 > >これは、適用範囲が限られているので、例外規則ということで >いいのかと思いました。。でも在韓米軍なんていうのもあるのですね。 >まあ、これも例に入れてしまうというのはどうでしょうか? > > (7) 在ナイジェリア日本大使館 > (8) 在米軍ヘリコプター #意見が変わりました。 > (9) ベルリン駐在北朝鮮利益代表部 > >僕は最後のも全部まとめて組織名にしてありました。 >たしかに悩んで、大使館の例を見た覚えがあります。 > >在韓米軍と韓国三星のそれぞれ最初の1文字はちょっと違うような >気もしますが。何とも表現しにくいですけれども。 こちらについては、何故、3.1.3.A 組織名の前につく国名 の定義を作ったのかが、分からなくなりました。 おそらく、 在ナイジェリア日本大使館 とするのは、METの例にあったからだと思いますが、 国名の定義を変更したIREXでは、むしろ 在ナイジェリア日本大使館が 残っていることがおかしいのではないでしょうか? もし、在ナイジェリア日本大使館を残すのであれば、 例外としてではなく、3.1.3.A 組織名の前につく国名 を削除した ほうが定義として整理されると思います。 #正解のタグつけはこちらが非常に楽。 #連続固有名詞で分ける必要があるのが、人名+組織名+役職と、 #並列の固有名詞表現だけになるので。 また、このまえの集まりで議論になった、下記の問題もすっきりすると思います。 イスラエル建国記念日 イスラエル建国記念日 気になって過去のメイルを調べると、次のような議論がありました。 それにも関わらず、3.1.3.A 組織名の前につく国名 を 作られたのはそれなりの理由があるのだと思うのですが、 どういう理由でしょう? 改めてお尋ねしたいです。 Return-Path: Date: Tue, 30 Jun 98 20:38:00 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu, fukumoto@kansai.oki.co.jp Subject: NE Tag (part4) <中略> 特にコメントしたいこと: ・”ニュージランド国会”はまとめたほうが、固有の国会を示せる気がします。 国名+組織名は一まとまりにするMET方式のほうが、揺れなく定義できる と思いますが、やはりダメでしょうか? #これはワシントンで関根さんに却下された意見ですが、もう一度だけ #挑戦です。 もし”ニュージーランド国会”を分けるのであれば、 もし”イスラム建国記念日”も分けたほうが矛盾がないと思います。 ・新聞末の(カイロ支局)は、 新聞の書き方の知識があれば、毎日新聞のカイロ支局だということが 特定できますが、この知識を使わなければどの組織のカイロ支局か分 かりません。新聞という媒体の知識も判断基準に入れるのであれば、 定義に一言あったほうがよいと思います。 ここでは出てこなかったですが、最後のに(社会部)とあった場合も ”カイロ支局”を組織名にするのであれば、社会部も組織名にするの ですよね? わたしは、カイロ支局、社会部が統一された見解であれば、どちらに 決めても良いと思いますが、定義、もしくは例で一言あったほうがよ いと思います。 Return-Path: Date: Thu, 2 Jul 98 09:30:02 EDT From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) To: eriguchi@lit.rd.nttdata.co.jp, ochi@flab.fujitsu.co.jp, nisino@flab.fujitsu.co.jp, wakao@shibuya.tao.or.jp Cc: fukumoto@kansai.oki.co.jp, sekine@cs.nyu.edu In-Reply-To: Yoshio Eriguchi's message of Tue, 30 Jun 98 20:38:00 JST <9806301138.AA02820@pittsburgh.lit.rd.nttdata.co.jp> Subject: NE Tag (part4) <中略> 特にコメントしたいこと: ・”ニュージランド国会”はまとめたほうが、固有の国会を示せる気がします。 はい、私も同意します。 ワシントンで反対しましたっけ? わたしは、カイロ支局、社会部が統一された見解であれば、どちらに 決めても良いと思いますが、定義、もしくは例で一言あったほうがよ いと思います。 統一的に取る事にしたいと思います。 他の参加者にも(別のデータで)やってもらいましょうね。 関根 -- Eriguchi  1,, Summary-line: 23-Oct eriguchi@lit.rd.nttdata.c #[irex 79] NE definition Return-Path: Received: from noreen.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id XAA27424; Thu, 22 Oct 1998 23:06:09 -0400 Received: from ms.nttdata.co.jp by noreen.cs.nyu.edu (SMI-8.6/1.20) id XAA10232; Thu, 22 Oct 1998 23:06:03 -0400 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id MAA00886 for ; Fri, 23 Oct 1998 12:05:42 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id MAA23525 for ; Fri, 23 Oct 1998 12:05:42 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id MAA24849 for ; Fri, 23 Oct 1998 12:05:41 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (eriguchi@pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8/3.6W-lit-server-05/22/98) with SMTP id MAA24088 for ; Fri, 23 Oct 1998 12:05:40 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA20910; Fri, 23 Oct 98 12:02:02 JST Date: Fri, 23 Oct 98 12:02:02 JST From: Yoshio Eriguchi Message-Id: <9810230302.AA20910@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Thu, 22 Oct 1998 20:29:52 -0400 <199810230029.UAA10149@noreen.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 832 *** EOOH *** Return-Path: Date: Fri, 23 Oct 98 12:02:02 JST From: Yoshio Eriguchi To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Thu, 22 Oct 1998 20:29:52 -0400 <199810230029.UAA10149@noreen.cs.nyu.edu> Subject: [irex 79] NE definition Content-Type: text Content-Length: 832 江里口です。 >米軍立川基地の移転問題は > >成田空港問題 > >同様 > >米軍立川基地の移転問題は > >でいいのではないでしょうか? >文脈から地名または組織名と確認できる場合には僕は >上下関係とみなしと同様全部をまとめたいと思いますが、、、 > >米軍立川基地に着陸した戦闘機 わかりました。 私の疑問は、組織名 - 建造物名(地名?) という形式が 地名 - 地名 (ex. 神奈川県 -- 川崎市) 組織 - 組織 (ex. さくら銀行 - 福岡支店) と同様に上下関係とみなせるかという点でした。 組織名 - 建造物名(地名?)でも上下関係が成り立つものと して、タグ付けします。 -- Eriguchi  1,, Summary-line: 23-Oct eriguchi@lit.rd.nttdata. #[irex 79] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id KAA29880; Fri, 23 Oct 1998 10:11:12 -0400 Received: from noreen.cs.nyu.edu by cs.nyu.edu (SMI-8.6/1.20) id KAA11078; Fri, 23 Oct 1998 10:11:09 -0400 Received: by noreen.cs.nyu.edu (SMI-8.6/1.20) id KAA10804; Fri, 23 Oct 1998 10:11:08 -0400 Date: Fri, 23 Oct 1998 10:11:08 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810231411.KAA10804@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Fri, 23 Oct 98 10:42:57 JST <9810230142.AA20629@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 4747 *** EOOH *** Return-Path: Date: Fri, 23 Oct 1998 10:11:08 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Fri, 23 Oct 98 10:42:57 JST <9810230142.AA20629@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 4747 関根さんにとっての、今回の固有表現の名称は、どちらが 根幹なのですか? 文脈を考慮して、名称の役割から判断することですか? 文脈を無視して、名称の字面だけで、判断することですか? 今までの議論で、私自信は、文脈を考慮することをベースに、 細かいところで例外を作っていくという方針なのかなと思って 定義について知恵を絞ってきました。 基本的には同じです。ただし、前の江里口さんのメイルで指摘された > 定義を読むと固有のものをさすかどうかという判断基準はなくなったよう > にも見受けられます。 この基準は強く持っています。 (これはなくなっていません。3.1の最初の文にあります。) また、3.1の2つ目の段落に「固有名詞や固有名詞を含む複合語、 その省略形とあります。」 この基準からすると「総務部」が単独で出現した場合には タグしたくないと思います。例えば 彼があの時買ったアイスクリーム の「アイスクリーム」は固有の物を指していますが、これは 固有表現とはしたくないですよね。(省略と取れない事もないので。) そう言う意味では、まだ3.1の定義は弱いかもしれません。 江里口さんの例では「総務部」が「NTT総務部」の省略形である というのはちょっと難しいですよね。「社会部」はたしかに 「毎日新聞社社会部」の省略形かもしれませんが。。。 でも、「ローマ支局」程には明確ではありません。 定義にある固有表現の例を固有名詞が含まれているかどうかで眺めた所、 政治団体、法律、理論の名前、以外はほぼ含まれているようです。 「影の内閣」は構成要素に固有名詞はありませんが、全体が 固有名詞であると判断できると思います。 法律、理論は固有名詞が含まれている場合もあるし(理論は特に)、 一般的に世界(または国)にひとつしかない固有の物を指すので 固有物と判定してもいいように思います。 うーーん、固有名詞の定義と言われるとちょっと悩みますが、 一応例を眺めてみてください。 > (7) 在ナイジェリア日本大使館 > (8) 在米軍ヘリコプター #意見が変わりました。 > (9) ベルリン駐在北朝鮮利益代表部 > >僕は最後のも全部まとめて組織名にしてありました。 >たしかに悩んで、大使館の例を見た覚えがあります。 > >在韓米軍と韓国三星のそれぞれ最初の1文字はちょっと違うような >気もしますが。何とも表現しにくいですけれども。 こちらについては、何故、3.1.3.A 組織名の前につく国名 の定義を作ったのかが、分からなくなりました。 ちょっと調べましたが、少なくともニューヨークの 日本総領事館は「在ニューヨーク日本総領事館」というのが 正式名称のようです。(http://ny.cgj.org/index.html) 総領事館に電話して確認もしました。 (領事館の人、変な事を聞いてごめんなさい。 B-) その他、在アトランタ日本総領事館、在インドネシア日本大使館 在ジャカルタ日本総領事館が正式名称のようです。 (http://www.rad.net.id/eojind/ryoji.htmはなかなか面白い。) 「韓国三星」というのは特に韓国にある三星を特定したいのではなくて 三星というのは韓国の会社だよという修飾のために付けているのだと 思います。(もちろん文脈によっては、そうでない事もあるでしょうが、 会社の正式名称には付いていないという所で、共通の定義にしたいと 思います。) > (8) 在米軍ヘリコプター #意見が変わりました。 > (9) ベルリン駐在北朝鮮利益代表部 については多分正式名ではないでしょうね。 特に(9)は分割する方がいいような気がしてきました。 (8)も表記から大使館の例にならいましたが、意味的な修飾に 使用されているという事で、江里口さんの意見に同意します。 3.1.3.Aの定義を作ったのは、METが、「漢字一文字の場合にはこうで、 カタカナの時はこう」というように変な基準だったので、本来の名前を 基準に作りなおしましょう、という動機だったと覚えています。 もし、在ナイジェリア日本大使館を残すのであれば、 例外としてではなく、3.1.3.A 組織名の前につく国名 を削除した ほうが定義として整理されると思います。 #正解のタグつけはこちらが非常に楽。 しかし、固有表現抽出の目的には、独フォルクスワーゲンという 全体が取られるより、本来の組織名である「フォルクスワーゲン」だけが 取れた方が気持いいと思います。 また、このまえの集まりで議論になった、下記の問題もすっきりすると思います。 イスラエル建国記念日 イスラエル建国記念日 これも、前回の結論である「正式名称を取り、国名は修飾として 別に取る」という事でいいのではないかと思います。 関根  1, answered,, Summary-line: 25-Oct eriguchi@lit.rd.nttdata. #[irex 79] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id MAA13006; Sun, 25 Oct 1998 12:02:43 -0500 Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with SMTP id MAA12939 for ; Sun, 25 Oct 1998 12:02:42 -0500 (EST) Received: by noreen.cs.nyu.edu (SMI-8.6/1.20) id MAA12632; Sun, 25 Oct 1998 12:02:28 -0500 Date: Sun, 25 Oct 1998 12:02:28 -0500 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810251702.MAA12632@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Mon, 19 Oct 98 16:48:28 JST <9810190748.AA01376@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 2594 *** EOOH *** Return-Path: Date: Sun, 25 Oct 1998 12:02:28 -0500 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Mon, 19 Oct 98 16:48:28 JST <9810190748.AA01376@pittsburgh.lit.rd.nttdata.co.jp> Subject: [irex 79] NE definition Content-Type: text Content-Length: 2594 タグ付けを再度してみての考えを書きます。 複合名詞の問題に対する私の立場の説明は以下の通りです。 > ・鈴木家 > 鈴木家 <- これまでは一貫してこのタグ付けでした。 例えば「メディチ家」なんていうのが辞書に載っていないか 調べなければいけない。この用な例は無限に近く考えられる。 それらをすべて辞書引きする訳にはいかない。 > ・フランス人形 > 3.1.A で 基準辞書を広辞苑にした場合は、 > ・基準辞書に項目として載っておらず、 > ・「フランス」の「人形」と”の”を入れて置き換え可能で、 > ・矛盾、揺れがあるようには私には思えない > ので、 > フランス人形 同じく「日本人形」「博多人形」は? > ・フィリピン人 > フィリピン人 > これも、3.1.Aの定義からは、最後の矛盾、揺れ以外では > フィリピン人 > になると思います。 同じく「日本人」は? という事で、今の定義では、語源まで逆登る場合と「英語」「漢字」の ような特殊な場合には抽出しないとし、元の定義に戻しました。 (http://cs.nyu.edu/cs/projects/proteus/irex/NE/df981025.txt) > (1) NTT総務部長 > (2) ○○はNTTに入社、総務部に配属。 > (3) ○○はNTTに入社。..総務部時代には、.... > (4) 各社の総務部が集まって.... > (5) ......。 (社会部) > (6) ......。 (ローマ支局) > > METの時は、(2)がグレー、(3)(4)には付けなかったと記憶していますが、 > 全部つける方が、定義の変更がなく、(想定する範囲では)正解タグ > 作成も容易になると思います。 これについては、タグ付けしてみて、江里口さんの考えに近づいていますが、 (例えば、「NGO取材班」にはタグ付けしたい等)でも、どうも「総務部」 には抵抗があります。あまりに一般的な言葉で、限定される物が付かないと 普通名詞としか取れないという点があります。これに文脈入れてしまうと 前に書いた通り、普通名詞でも固有の物を指す物(彼が買ったアイスクリーム) は抽出しなければいけないという事になってしまいそうで嫌なのです。 何かいい説明があったら聞かせてください。 とりあえず、現在の定義(df981025)はこれまでの話と、上記の2点については 私の考えを基に書きました。(2点目はあまり明示的には書いていません) 間も無く、それを基にした私の抽出結果を送ります。 関根  1,, Summary-line: 25-Oct eriguchi@lit.rd.nttdata. #NED_SS05.idx Return-Path: Received: from noreen.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id MAA13091; Sun, 25 Oct 1998 12:58:49 -0500 Received: by noreen.cs.nyu.edu (SMI-8.6/1.20) id MAA12681; Sun, 25 Oct 1998 12:58:46 -0500 Date: Sun, 25 Oct 1998 12:58:46 -0500 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810251758.MAA12681@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp CC: sekine@noreen.cs.nyu.edu Subject: NED_SS05.idx Content-Type: text Content-Length: 39347 *** EOOH *** Return-Path: Date: Sun, 25 Oct 1998 12:58:46 -0500 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) To: eriguchi@lit.rd.nttdata.co.jp CC: sekine@noreen.cs.nyu.edu Subject: NED_SS05.idx Content-Type: text Content-Length: 39347 (NED_SS05 = NE Dryrun Satoshi Sekine No.5) 以下に私の結果です。df981025.txtを基にタグ付けしましたが、 江里口さんのが違うバージョンの定義を基にしていても構いません。 付きあわせて考察しませんか? 関根 --NED_SS05.idx---------------- # # TEST for test.key # TAGSET ORGANIZATION TAGSET PERSON TAGSET LOCATION TAGSET ARTIFACT TAGSET DATE TAGSET TIME TAGSET MONEY TAGSET PERCENT TAGSET OPTIONAL TAGSET ? DOCNO 940911001 @ 12 16 96年度 @ 18 23 2―3万円 @ 27 30 大蔵省 @ 33 36 大蔵省 @ 37 39 十日 @ 40 46 一九九六年度 @ 84 90 二万―三万円 @ 97 100 二千円 @ 114 121 九五年度予算案 @ 207 210 文部省 @ 270 274 九五年度 @ 278 283 二十六万円 @ 290 295 二万九千円 @ 338 342 九五年度 @ 347 356 四十一万一千六百円 @ 358 367 四十四万七千六百円 @ 396 400 九四年度 @ 407 412 二十三万円 @ 414 417 三万円 @ 424 429 二万七千円 @ 431 434 二千円 DOCNO 940911006 @ 3 5 参院 @ 5 7 愛知 @ 18 20 村山 @ 34 36 参院 @ 36 41 愛知選挙区 @ 45 48 十一日 @ 62 66 午後七時 @ 73 76 十時半 DOCNO 940911011 @ 30 32 村山 @ 41 45 村山内閣 @ 65 67 十日 @ 67 69 午後 @ 70 74 秋田県庁 @ 79 83 村山富市 @ 86 92 大河原太一郎 @ 92 93 農 @ 95 99 浜本万三 @ 99 100 労 @ 102 106 野中広務 @ 106 108 自治 @ 219 222 秋田県 @ 426 431 二十一世紀 @ 567 569 野中 @ 569 571 自治 @ 594 596 昨年 @ 646 648 国会 @ 673 675 細川 @ 699 702 自民党 @ 703 706 社会党 @ 729 734 東南アジア DOCNO 940911016 @ 13 15 連合 @ 34 36 山岸 @ 41 44 山岸章 @ 44 46 連合 @ 124 129 芦田甚之助 @ 136 138 連合 @ 161 163 山岸 @ 181 182 半 @ 185 187 山岸 @ 190 192 芦田 @ 208 212 昨年十月 @ 213 215 山岸 @ 243 245 昨年 @ 251 255 後藤森重 @ 256 259 自治労 @ 263 265 連合 @ 284 288 鷲尾悦也 @ 289 293 鉄鋼労連 @ 298 300 連合 @ 317 319 山岸 @ 331 334 旧同盟 @ 340 342 芦田 @ 342 348 ゼンセン同盟 @ 352 355 旧総評 @ 356 359 自治労 @ 360 363 日教組 @ 372 374 芦田 @ 384 386 山岸 @ 387 389 芦田 @ 390 392 鷲尾 @ 466 468 山岸 @ 518 521 全電通 @ 531 533 五月 @ 555 557 連合 @ 585 587 山岸 @ 622 626 六月下旬 @ 627 629 国会 @ 671 672 自 @ 672 673 社 @ 682 684 連合 @ 717 719 三日 @ 720 723 社会党 @ 762 770 「山岸連合」時代 @ 812 818 六、七千億円 @ 822 824 連合 @ 833 838 三十五億円 @ 845 849 八十億円 @ 873 875 連合 @ 896 898 山岸 @ 939 942 新生党 @ 943 946 社会党 @ 969 972 自治労 @ 985 987 山岸 @ 993 995 連合 @ 1023 1025 山岸 @ 1034 1037 全電通 @ 1054 1057 公労協 @ 1066 1069 公労協 @ 1073 1075 国会 @ 1123 1125 山岸 @ 1143 1145 芦田 @ 1159 1165 ゼンセン同盟 @ 1193 1197 山田精吾 @ 1199 1203 ゼンセン @ 1222 1224 連合 @ 1234 1236 総評 @ 1254 1256 同盟 @ 1275 1277 芦田 @ 1283 1285 連合 @ 1301 1305 山岸時代 @ 1382 1384 山岸 @ 1408 1410 芦田 @ 1458 1460 芦田 @ 1466 1468 昨年 @ 1472 1478 連合政治方針 @ 1493 1495 連合 @ 1519 1526 社会、民社両党 @ 1559 1561 昨年 @ 1567 1570 民社党 @ 1589 1593 小沢一郎 @ 1594 1597 新生党 @ 1621 1624 旧総評 @ 1630 1632 全逓 @ 1633 1636 全電通 @ 1637 1641 金属労協 @ 1642 1648 IMF・JC @ 1661 1664 社会党 @ 1675 1678 自治労 @ 1679 1682 日教組 @ 1705 1707 連合 @ 1708 1711 民社党 @ 1716 1719 旧同盟 @ 1736 1740 金属労協 @ 1747 1750 旧総評 @ 1757 1760 旧同盟 @ 1761 1763 JC @ 1781 1783 連合 @ 1784 1787 社会党 @ 1808 1811 民社党 @ 1817 1820 旧連立 @ 1840 1842 村山 @ 1851 1854 自治労 @ 1855 1858 日教組 @ 1869 1871 山岸 @ 1896 1898 連合 @ 1921 1923 芦田 @ 1923 1926 新連合 @ 1927 1929 村山 DOCNO 940911022 @ 3 4 米 @ 38 44 ニューヨーク @ 44 46 9日 @ 46 48 時事 @ 62 64 米国 @ 72 75 四九% @ 123 124 米 @ 135 145 デル・コンピューター @ 146 148 九日 @ 172 174 米国 @ 251 254 五八% @ 263 264 半 @ 271 273 デル DOCNO 940911026 @ 3 4 米 @ 4 6 議会 @ 14 17 WTO @ 34 40 ロサンゼルス @ 40 43 10日 @ 43 47 児玉平生 @ 48 50 日本 @ 51 53 米国 @ 54 57 カナダ @ 58 62 欧州連合 @ 63 65 EU @ 83 85 十日 @ 85 87 午前 @ 88 90 日本 @ 92 95 十一日 @ 95 97 未明 @ 100 106 ロサンゼルス @ 118 121 十一日 @ 159 161 十日 @ 161 163 午前 @ 167 175 関税貿易一般協定 @ 176 179 ガット @ 186 190 来年一月 @ 197 203 世界貿易機構 @ 204 207 WTO @ 223 228 WTO協定 @ 240 245 WTO協定 @ 270 271 米 @ 271 273 議会 @ 313 320 通商法三〇一条 @ 321 334 不公正貿易慣行への制裁条項 @ 393 395 十日 @ 395 397 午後 @ 402 405 WTO @ 423 426 十一日 @ 426 428 午前 @ 433 436 WTO @ 459 462 WTO DOCNO 940911031 @ 3 4 米 @ 4 5 朝 @ 26 30 ベルリン @ 32 36 ベルリン @ 36 39 10日 @ 39 43 岸本卓也 @ 44 55 朝鮮民主主義人民共和国 @ 56 59 北朝鮮 @ 73 75 米国 @ 76 79 北朝鮮 @ 86 88 十日 @ 90 94 ベルリン @ 104 107 北朝鮮 @ 163 166 十二日 @ 173 176 十三日 @ 202 206 午前十時 @ 207 209 日本 @ 212 216 午後五時 @ 219 222 旧東独 @ 224 230 北朝鮮大使館 @ 237 240 北朝鮮 @ 242 245 金正宇 @ 246 253 対外経済委員会 @ 258 259 米 @ 261 270 ゲーリー・セーモア @ 270 278 国務省拡散問題課 @ 294 298 ベルリン @ 300 308 北朝鮮利益代表部 @ 309 312 ドイツ @ 343 345 米国 @ 352 355 北朝鮮 DOCNO 940911037 @ 9 12 伊藤公 @ 24 31 いとう・いさお @ 40 45 1935年 @ 45 48 宮城県 @ 60 63 66年 @ 64 73 (財)日本体育協会 @ 107 110 91年 @ 135 143 オリンピックの本 DOCNO 940911041 @ 9 13 松平康隆 @ 15 25 日本バレーボール協会 @ 30 40 まつだいら・やすたか @ 41 51 日本バレーボール協会 @ 54 59 1930年 @ 59 62 東京都 @ 66 68 慶大 @ 69 73 日本鋼管 @ 84 87 全日本 @ 95 100 ミュンヘン @ 111 115 国際連盟 @ 119 130 日本オリンピック委員会 @ 141 153 広島アジア大会日本選手団 DOCNO 940911047 @ 3 8 ローマ法王 @ 9 14 クロアチア @ 17 22 ローマ法王 @ 22 31 ヨハネ・パウロ2世 @ 32 35 10日 @ 35 36 夕 @ 37 39 日本 @ 41 44 11日 @ 44 46 未明 @ 52 57 クロアチア @ 60 64 ザグレブ @ 70 75 ローマ法王 @ 76 80 旧ユーゴ @ 92 95 11日 @ 107 112 ローマ法王 @ 116 128 ボスニア・ヘルツェゴビナ @ 129 133 サラエボ @ 166 168 国連 @ 181 187 ウィーン支局 DOCNO 940911051 @ 3 5 台湾 @ 10 12 中国 @ 13 14 米 @ 44 46 北京 @ 46 49 10日 @ 49 54 網谷利一郎 @ 55 57 米国 @ 66 68 台湾 @ 84 86 中国 @ 86 89 外務省 @ 90 93 劉華秋 @ 96 98 十日 @ 99 101 ロイ @ 102 104 中国 @ 104 106 米国 @ 112 114 中国 @ 131 133 台湾 @ 159 160 中 @ 178 179 米 @ 179 180 中 @ 192 197 クリントン @ 197 198 米 @ 203 204 中 @ 216 221 新華社通信 @ 226 227 劉 @ 231 233 米国 @ 243 245 中国 @ 253 255 中国 @ 259 261 台湾 @ 272 279 上海コミュニケ @ 299 300 米 @ 304 306 台湾 @ 310 312 中国 @ 329 331 台湾 @ 337 339 米国 @ 342 343 米 @ 349 350 台 @ 435 442 一九九二年九月 @ 443 445 米国 @ 446 452 F16戦闘機 @ 453 455 台湾 @ 476 478 中国 @ 496 500 ブラウン @ 500 501 米 @ 501 503 商務 @ 509 511 北京 @ 512 515 江沢民 @ 531 533 台湾 @ 539 541 中国 @ 555 557 中国 @ 563 571 関税貿易一般協定 @ 572 575 ガット @ 583 585 米国 @ 595 600 クリントン @ 601 602 中 @ 603 606 天安門 @ 636 638 中国 @ 645 647 米国 DOCNO 940911057 @ 11 15 50万円 @ 25 32 サッポロビール @ 33 40 サッポロビール @ 51 52 仏 @ 52 57 フラパン社 @ 67 80 フラパン ラブレー バカラ @ 91 95 50万円 @ 105 115 フランソワ・ラブレー @ 127 132 フラパン社 @ 182 186 バカラ社 @ 208 211 40% @ 232 235 26日 @ 237 242 来月31日 @ 254 269 東京都渋谷区恵比寿4の20の1 @ 270 280 サッポロビール(株) @ 281 289 ワイン洋酒事業部 @ 291 304 フラパン ラブレー バカラ DOCNO 940911061 @ 3 5 米国 @ 30 31 日 @ 31 32 米 @ 40 46 ロサンゼルス @ 46 49 10日 @ 49 53 福本容子 @ 54 55 日 @ 55 56 米 @ 85 86 米 @ 169 171 十日 @ 213 215 日本 @ 227 228 米 @ 231 233 月末 @ 257 259 日本 @ 288 289 米 @ 313 314 米 @ 324 327 通産省 @ 348 352 河野洋平 @ 356 357 外 @ 360 361 米 @ 363 367 二十六日 @ 414 416 月末 DOCNO 940911066 @ 7 13 日本テレコム @ 21 23 大阪 @ 25 27 先週 @ 28 35 日本テレコム株 @ 39 41 週初 @ 43 46 NTT @ 47 53 日本電信電話 @ 55 58 DDI @ 59 63 第二電電 @ 87 94 日本テレコム株 @ 168 170 今週 @ 187 189 東証 @ 196 203 1万9900円 @ 205 211 2万500円 DOCNO 940911071 @ 15 17 河童 @ 65 70 米米クラブ @ 71 81 カールスモーキー石井 @ 83 87 石井竜也 @ 96 98 今冬 @ 106 108 河童 @ 109 112 かっぱ @ 204 208 今年三月 @ 209 211 石井 @ 244 246 河童 @ 248 252 四十年前 @ 344 349 一九九一年 @ 350 359 CBS・ソニー出版 @ 361 369 ソニーマガジンズ @ 380 384 柴田哲孝 @ 396 404 KAPPA―河童 @ 406 408 茨城 @ 499 501 米国 @ 546 559 ディレクターズ・カンパニー @ 701 704 雄二郎 @ 707 709 太一 @ 725 727 雄太 @ 789 791 石井 @ 822 826 河井真也 @ 867 870 八月末 @ 875 877 柴田 @ 915 917 柴田 @ 967 969 河井 @ 991 993 河井 @ 995 997 柴田 @ 1046 1048 河井 @ 1074 1078 昨年九月 @ 1083 1085 柴田 @ 1097 1101 今年一月 @ 1113 1115 八月 @ 1199 1201 石井 @ 1244 1246 前日 @ 1375 1377 柴田 @ 1419 1421 河井 @ 1449 1451 柴田 @ 1517 1520 川崎浩 DOCNO 940911077 @ 28 32 安西英明 @ 182 183 夏 @ 203 204 夏 @ 1225 1231 日本野鳥の会 DOCNO 940911080 @ 11 14 トルコ @ 23 28 武本金太朗 @ 120 123 1/2 @ 156 159 1/2 DOCNO 940911086 @ 44 47 10日 @ 48 57 岡山県営陸上競技場 @ 59 62 PJM @ 74 78 川崎製鉄 DOCNO 940911092 @ 45 48 10日 @ 49 51 東京 @ 52 60 代々木第二体育館 @ 62 64 拓大 @ 73 76 筑波大 @ 81 83 専大 @ 92 94 中大 @ 99 102 日体大 @ 111 113 法大 @ 118 120 日大 @ 129 131 早大 DOCNO 940911096 @ 10 12 ピン @ 13 19 セルラーワン @ 28 32 小林浩美 @ 37 38 米 @ 49 51 ピン @ 52 58 セルラーワン @ 62 64 9日 @ 65 71 ポートランド @ 72 87 コロンビアエッジウオーターCC @ 145 147 翌日 @ 168 175 バル・スキナー @ 176 178 米国 @ 195 199 小林浩美 @ 215 217 AP DOCNO 940911100 @ 12 15 きょう @ 23 26 武蔵丸 @ 27 30 若ノ花 @ 44 47 十一日 @ 48 50 東京 @ 51 56 両国国技館 @ 74 77 武蔵丸 @ 78 81 若ノ花 @ 94 97 武蔵丸 @ 98 101 名古屋 @ 112 114 五日 @ 193 196 若ノ花 @ 282 285 貴ノ花 @ 347 350 貴ノ浪 @ 397 400 武双山 @ 424 427 舞の海 @ 428 431 浜ノ島 @ 432 434 日大 @ 451 455 天野久樹 @ 458 461 貴ノ花 @ 462 465 武蔵丸 @ 472 474 十日 @ 475 477 今年 @ 484 487 貴ノ花 @ 489 492 名古屋 @ 502 505 武蔵丸 @ 507 512 毎日新聞社 @ 517 521 大優勝額 @ 533 538 両国国技館 @ 590 593 優勝額 @ 594 597 国技館 DOCNO 940911106 @ 35 38 10日 @ 39 41 日生 @ 45 48 大院大 @ 50 53 大院大 @ 58 61 大商大 @ 64 67 神院大 @ 69 72 神院大 @ 77 80 大経大 DOCNO 940911111 @ 10 12 西武 @ 15 19 ダイエー @ 20 22 西武 @ 34 39 福岡ドーム @ 40 42 西武 @ 50 52 西武 @ 67 71 ダイエー @ 88 90 工藤 @ 108 111 石井丈 @ 128 131 若田部 @ 162 164 西武 @ 165 169 ダイエー @ 178 180 西武 @ 184 186 鈴木 @ 202 204 安部 @ 218 220 伊東 @ 235 236 辻 @ 274 278 ダイエー @ 290 292 工藤 @ 294 298 ダイエー @ 302 306 ダイエー @ 324 326 西武 @ 327 328 森 @ 395 399 ダイエー @ 419 421 西武 @ 489 491 根本 @ 526 528 秋山 @ 530 532 西武 DOCNO 940911116 @ 28 34 アンサーJr @ 63 65 9日 @ 66 75 エルクハートレーク @ 76 85 米ウィスコンシン州 @ 98 100 今季 @ 106 118 アル・アンサー・ジュニア @ 119 121 米国 @ 122 132 ペンスキー・イルモア @ 182 188 UPIS時事 DOCNO 940911122 @ 20 22 山谷 @ 87 91 中嶋儀一 @ 98 100 東京 @ 101 103 山谷 @ 149 151 山谷 @ 175 177 中嶋 @ 194 196 山谷 @ 235 238 山友会 @ 240 246 台東区清川二 @ 249 251 中嶋 @ 334 336 中嶋 @ 463 466 山友会 @ 525 527 中嶋 @ 651 654 二千円 @ 741 743 中嶋 @ 746 749 山友会 @ 760 765 山里相談室 @ 773 776 四年前 @ 858 860 日本 @ 954 956 中嶋 @ 971 973 日本 @ 983 987 ジャパン @ 992 995 アジア @ 1042 1044 中嶋 @ 1064 1072 聖フランシスコ会 @ 1077 1082 山里相談室 @ 1140 1143 十年前 @ 1153 1155 山谷 @ 1393 1399 NGO取材班 @ 1400 1405 斉藤希史子 DOCNO 940911126 @ 31 33 日本 @ 41 46 毎日新聞社 @ 47 50 NHK @ 63 65 十日 @ 66 68 東京 @ 69 72 内幸町 @ 73 79 イイノホール @ 122 126 伊藤京子 @ 127 131 畑中良輔 @ 164 167 十三日 @ 167 172 午前十一時 @ 214 218 長島剛子 @ 219 223 国立音大 @ 229 233 山口安子 @ 234 238 東京音大 @ 244 249 日下部祐子 @ 250 256 京都市立芸大 @ 262 266 山本香代 @ 267 271 国立音大 @ 277 281 上田雅美 @ 282 289 エリザベト音大 @ 295 299 松下悦子 @ 300 306 同志社女子大 @ 308 312 西由起子 @ 313 317 東京芸大 @ 323 326 森麻季 @ 331 335 栗林朋子 @ 340 344 中島豊子 @ 345 349 東京音大 @ 355 359 村沢健一 @ 360 364 東京芸大 @ 367 371 中村弘人 @ 375 380 久住庄一郎 @ 388 392 石川誠二 @ 393 398 武蔵野音大 @ 404 408 井上幸一 @ 409 413 東京芸大 @ 419 422 青戸知 @ 427 431 成瀬当正 @ 432 436 東京音大 @ 442 446 小森輝彦 @ 447 451 東京芸大 @ 457 461 浦野智行 @ 464 468 藤村匡人 @ 469 473 大阪音大 @ 479 482 晴雅彦 @ 487 491 佐藤泰弘 @ 492 496 東京芸大 DOCNO 940911131 @ 8 12 点字毎日 @ 27 32 毎日新聞社 @ 40 44 点字毎日 @ 56 63 ニフティサーブ @ 66 72 PC―VAN @ 83 87 点字毎日 @ 88 99 1922(大正11)年 @ 154 158 点字毎日 @ 328 334 PC―VAN @ 337 344 ニフティサーブ @ 347 350 16日 @ 370 374 点字毎日 @ 388 391 50円 @ 403 408 毎日新聞社 DOCNO 940911136 @ 3 8 JR東日本 @ 33 41 24万5000円 @ 51 59 1億2000万円 @ 67 72 JR東日本 @ 138 140 十日 @ 181 188 二十四万五千円 @ 193 199 一億二千万円 @ 210 214 鉄道の日 @ 249 253 五百万円 @ 301 306 JR東日本 @ 307 315 一九九一年三月末 @ 342 351 乗車券管理センター @ 352 357 東京都港区 @ 361 363 国鉄 @ 453 456 一万円 @ 500 504 百二十円 @ 505 509 百四十円 @ 651 655 鉄道の日 @ 657 662 十月十四日 @ 671 674 運輸省 @ 740 746 鉄道局業務課 DOCNO 940911141 @ 5 7 中国 @ 15 20 100万円 @ 26 30 東京入管 @ 35 42 東京入国管理局 @ 77 80 百万円 @ 90 97 警視庁捜査三課 @ 98 101 池袋署 @ 102 104 十日 @ 105 111 浦和市領家三 @ 116 120 警備五課 @ 123 127 神田崇成 @ 151 153 神田 @ 157 161 五月下旬 @ 170 174 第二庁舎 @ 175 183 東京都北区西が丘 @ 199 201 中国 @ 227 231 二十九日 @ 232 235 浦和市 @ 262 265 百万円 @ 278 280 中国 @ 284 290 五月二十三日 @ 291 297 出入国管理法 @ 347 352 六月十三日 @ 384 387 百万円 @ 402 404 七月 @ 405 408 池袋署 @ 427 429 神田 @ 449 451 神田 @ 515 517 中国 @ 548 556 法務省入国管理局 @ 557 561 小林域泰 DOCNO 940911146 @ 3 5 関東 @ 43 46 十一日 @ 46 50 午前零時 @ 51 55 伊豆諸島 @ 56 59 八丈島 @ 85 86 朝 @ 88 91 八丈島 @ 97 99 午後 @ 101 105 房総半島 @ 114 116 関東 @ 134 137 気象庁 @ 221 223 関東 @ 228 232 伊豆半島 @ 233 236 十一日 @ 236 237 夕 DOCNO 940911153 @ 18 22 河島英五 @ 59 64 一九六二年 @ 75 78 太平洋 @ 87 91 堀江謙一 @ 119 124 石原裕次郎 @ 130 139 太平洋ひとりぼっち @ 151 153 堀江 @ 185 187 堀江 @ 205 211 マルコポーロ @ 212 217 コロンブス @ 354 356 堀江 @ 454 457 生駒山 DOCNO 940911156 @ 22 26 藤田宜永 @ 1515 1520 小池真理子 DOCNO 940911161 @ 8 11 NZ便 @ 12 14 未明 @ 18 24 関西国際空港 @ 34 36 大阪 @ 38 48 ニュージーランド航空 @ 49 53 日本航空 @ 60 63 97便 @ 64 66 十日 @ 67 73 オークランド @ 80 86 関西国際空港 @ 97 104 午後十一時十分 @ 119 125 オークランド @ 127 130 98便 @ 145 148 十一日 @ 148 152 午前一時 @ 167 169 翌日 @ 169 171 未明 @ 202 206 大阪空港 @ 211 213 翌朝 DOCNO 940911166 @ 20 23 野辺山 @ 28 33 長谷川哲夫 @ 43 47 21世紀 @ 72 75 八ケ岳 @ 82 95 国立天文台野辺山電波天文台 @ 144 150 九月二十三日 @ 151 155 秋分の日 @ 164 172 野辺山電波天文台 @ 184 186 昨年 @ 294 298 東京大学 @ 318 320 今年 @ 433 443 野辺山宇宙電波観測所 @ 513 518 二十一世紀 @ 538 540 日本 @ 808 813 一九九六年 @ 998 1000 チリ @ 1001 1006 アンデス山 @ 1008 1011 ハワイ @ 1012 1018 マウナケア山 @ 1061 1066 二十一世紀 @ 1081 1083 日本 @ 1099 1102 野辺山 @ 1137 1146 東大天文学センター @ 1152 1155 野辺山 DOCNO 940911171 @ 21 23 滋賀 @ 25 27 大阪 @ 29 31 十日 @ 31 38 午後五時十五分 @ 41 52 滋賀県蒲生郡日野町北脇 @ 53 59 国道307号 @ 65 77 滋賀県警防犯部機動警察隊 @ 145 147 八時 @ 240 246 福井県武生市 DOCNO 940911176 @ 4 8 Jリーグ @ 27 32 望月三起也 @ 91 93 日本 @ 101 104 USA @ 132 137 ヨーロッパ @ 204 208 一二〇% @ 223 228 ヨーロッパ @ 237 241 アメリカ @ 244 256 ローズボウル・スタジアム @ 478 482 Jリーグ DOCNO 940911181 @ 11 20 会津のおばあちゃん @ 22 26 磐越西線 @ 27 32 会津若松駅 @ 47 50 鶴ケ城 @ 53 56 白虎隊 @ 65 69 会津若松 @ 96 105 会津のおばあちゃん @ 117 124 伯養軒若松支店 @ 129 133 石垣孔三 @ 307 309 会津 @ 417 421 梅干し玉 @ 431 433 黄粉 @ 434 437 きなこ @ 448 450 会津 @ 496 502 10年ほど前 @ 543 551 おばあちゃん弁当 @ 579 584 1030円 DOCNO 940911187 @ 9 17 ドナルド・キーン @ 19 26 コロンビア大学 @ 41 49 ドナルド・キーン @ 50 57 コロンビア大学 @ 62 64 日本 @ 68 73 1922年 @ 73 79 ニューヨーク @ 86 106 コロンビア、ハーバード、ケンブリッジ各大 @ 114 117 53年 @ 117 119 京大 @ 122 128 日本文学大賞 @ 129 133 菊池寛賞 @ 156 158 日本 @ 189 193 3分の1 @ 194 196 米国 @ 201 203 日本 DOCNO 940911191 @ 21 25 入江貴久 @ 220 227 神奈川県大和市 DOCNO 940911196 @ 19 23 椎葉祐之 @ 44 47 琵琶湖 @ 190 196 大阪市住吉区  1,, Summary-line: 26-Oct eriguchi@lit.rd.nttdata.c #Error Mail Return-Path: Received: from noreen.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id XAA14778; Sun, 25 Oct 1998 23:44:42 -0500 Received: from ms.nttdata.co.jp by noreen.cs.nyu.edu (SMI-8.6/1.20) id XAA13015; Sun, 25 Oct 1998 23:44:40 -0500 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id NAA19413 for ; Mon, 26 Oct 1998 13:44:18 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id NAA29687 for ; Mon, 26 Oct 1998 13:44:18 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id NAA13832 for ; Mon, 26 Oct 1998 13:44:17 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id NAA15421 for ; Mon, 26 Oct 1998 13:44:16 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA00548; Mon, 26 Oct 98 13:40:38 JST Date: Mon, 26 Oct 98 13:40:38 JST From: Yoshio Eriguchi Message-Id: <9810260440.AA00548@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@noreen.cs.nyu.edu Subject: Error Mail Content-Type: text Content-Length: 519 *** EOOH *** Return-Path: Date: Mon, 26 Oct 98 13:40:38 JST From: Yoshio Eriguchi To: sekine@noreen.cs.nyu.edu Subject: Error Mail Content-Type: text Content-Length: 519 江里口です。 日本時間の23日金曜日18時より、 弊社のビルが停電をするため、マシンを止めました。 その影響で、何かがトラブルが発生し、本日の13時30分 まで、私宛のメイルは全てエラーメイルとなった可能性があ ります。 もし、該当するメイルがあれば、再送していただけると 嬉しいです。 -- Eriguchi P.S. 日本時間の23日金曜日 であっていますか? また、まともに文章が読めなくなってきました。  1,, Summary-line: 26-Oct eriguchi@lit.rd.nttdata.c #Error Mail Return-Path: Received: from noreen.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id CAA15315; Mon, 26 Oct 1998 02:28:00 -0500 Received: from ms.nttdata.co.jp by noreen.cs.nyu.edu (SMI-8.6/1.20) id CAA13293; Mon, 26 Oct 1998 02:27:59 -0500 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id QAA24738 for ; Mon, 26 Oct 1998 16:27:57 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id QAA15269 for ; Mon, 26 Oct 1998 16:27:57 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id QAA16985 for ; Mon, 26 Oct 1998 16:27:56 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id QAA14602; Mon, 26 Oct 1998 16:27:55 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA01459; Mon, 26 Oct 98 16:24:16 JST Date: Mon, 26 Oct 98 16:24:16 JST From: Yoshio Eriguchi Message-Id: <9810260724.AA01459@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@noreen.cs.nyu.edu In-Reply-To: Yoshio Eriguchi's message of Mon, 26 Oct 98 13:40:38 JST <9810260440.AA00548@pittsburgh.lit.rd.nttdata.co.jp> Subject: Error Mail Content-Type: text Content-Length: 1520 *** EOOH *** Return-Path: Date: Mon, 26 Oct 98 16:24:16 JST From: Yoshio Eriguchi To: sekine@noreen.cs.nyu.edu In-Reply-To: Yoshio Eriguchi's message of Mon, 26 Oct 98 13:40:38 JST <9810260440.AA00548@pittsburgh.lit.rd.nttdata.co.jp> Subject: Error Mail Content-Type: text Content-Length: 1520 関根さんからのメイルは、 3通届きました。 一つは、正解ファイルのインデックス Subject: NED_SS05.idx 残り2つは、名称の定義についてのメイルです。 ----------------------------------------------------------- Date: Sun, 25 Oct 1998 12:02:28 -0500 Subject: [irex 79] NE definition タグ付けを再度してみての考えを書きます。 複合名詞の問題に対する私の立場の説明は以下の通りです。 ----------------------------------------------------------- ----------------------------------------------------------- Date: Fri, 23 Oct 1998 10:11:08 -0400 基本的には同じです。ただし、前の江里口さんのメイルで指摘された > 定義を読むと固有のものをさすかどうかという判断基準はなくなったよう > にも見受けられます。 ----------------------------------------------------------- お騒がせしました。 >Date: Mon, 26 Oct 98 13:40:38 JST >From: Yoshio Eriguchi > >江里口です。 > >日本時間の23日金曜日18時より、 >弊社のビルが停電をするため、マシンを止めました。 > >その影響で、何かがトラブルが発生し、本日の13時30分 >まで、私宛のメイルは全てエラーメイルとなった可能性があ >ります。 > >もし、該当するメイルがあれば、再送していただけると >嬉しいです。 > >-- Eriguchi > >P.S. 日本時間の23日金曜日 >であっていますか? また、まともに文章が読めなくなってきました。  1,, Summary-line: 26-Oct eriguchi@lit.rd.nttdata.c #Re: [irex 79] NE definition Return-Path: Received: from noreen.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id FAA15739; Mon, 26 Oct 1998 05:39:54 -0500 Received: from ms.nttdata.co.jp by noreen.cs.nyu.edu (SMI-8.6/1.20) id FAA13382; Mon, 26 Oct 1998 05:39:53 -0500 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id TAA26067 for ; Mon, 26 Oct 1998 19:39:52 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id TAA04162 for ; Mon, 26 Oct 1998 19:39:51 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id TAA19496 for ; Mon, 26 Oct 1998 19:39:51 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id TAA17255 for ; Mon, 26 Oct 1998 19:39:50 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA02423; Mon, 26 Oct 98 19:36:11 JST Date: Mon, 26 Oct 98 19:36:11 JST From: Yoshio Eriguchi Message-Id: <9810261036.AA02423@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@noreen.cs.nyu.edu Subject: Re: [irex 79] NE definition Content-Type: text Content-Length: 11307 *** EOOH *** Return-Path: Date: Mon, 26 Oct 98 19:36:11 JST From: Yoshio Eriguchi To: sekine@noreen.cs.nyu.edu Subject: Re: [irex 79] NE definition Content-Type: text Content-Length: 11307 江里口です。 回答が長くなって、何を主張したいのかが分かりにくくなったので 最初に私の意見を集約します。 関根さんの思いは、 「文脈を考慮して、名称の役割から判断することがベースになっている」 と理解しました。 ◎文脈から固有の組織を指すことがわかる普通名詞について この定義では、 ・固有名詞表現とは、固有の対象を指す表現。 (3.1より) ・固有名詞表現の中に組織名がある。(3.1より) ・組織名とは、複数の人間で構成され、共通の目的を持った組織の名称。 なんらかの目的を持ったグループなどもその対象が組織としての意味で 使われている文脈においては組織名。 (3.1.1より) ということは読みとれますが、 ・普通名詞が固有名詞表現にならない。 ということは、読みとれません。むしろ、普通名詞の固有名詞表現がある ことを暗に示唆する表現があると思われます。 したがって、普通名詞を対象としないことを明示的に定義するか、 「総務部」などの普通名詞だが、文脈により特定の組織を指すことが わかる名称は抽出するようにしないと、矛盾が生じます。 残念ながら、私には、普通名詞を対象としないことを明示的に定義 することはできません。(固有名詞の定義があいまいだからです。) そこで、固有名詞、普通名詞に関わらず、文脈により特定の組織名 と判断できる組織名は抽出すべきかなと私は考えています。 この問題をどちらの方針にすべきかは、関根さんにお任せします。 今のままですと、人により、普通名詞の組織名を抽出したり、普通 名詞の組織名を抽出しない人が現れてきて、記事によっては評価に 影響がでる可能性があると思います。 これは、ドライランのときに分かると思うので、救いはあるとは 思いますが。 ◎国名 + 組織名について 在ニューヨーク日本総領事館 米国議会 在韓米軍ヘリコプター ベルリン駐在北朝鮮利益代表部 今一度、この4つにタグ付けしてください。 そして、どの定義で、そのようなタグをつけたか自分で説明してください。 そのあとで、4つの説明に矛盾がなかったか確認してください。 そのような定義からの理由づけができれば、私はその定義と、タグつけに したがいます。 --------------------------------------------------------------------- 関> 基本的には同じです。ただし、前の江里口さんのメイルで指摘された 江> 定義を読むと固有のものをさすかどうかという判断基準はなくなったよう 江> にも見受けられます。 関> この基準は強く持っています。 関> (これはなくなっていません。3.1の最初の文にあります。) 表現の問題なのですが、3.1の最初の一文だけで関根さんの思い (具体的に「これ」と指せるものを固有名詞表現にしたい)が、参 加者全員に伝わるかどうか不安です。杞憂であればよいのですが。 ここが、名称の議論の根幹になるので、ここで意識のずれが出ると まずいので敢えて質問しました。 関> また、3.1の2つ目の段落に「固有名詞や固有名詞を含む複合語、 関> その省略形とあります。」 関> この基準からすると「総務部」が単独で出現した場合には 関> タグしたくないと思います。例えば ここは、表現がまずいと思います。3.1の2つ目の段落には、 「固有名詞や固有名詞を含む複合語、その省略形などの形で表現されている。」 と書いてあります。 多分、この文の主語は、「固有名詞的表現」であると思いますが、 この文がいっているのは、固有名詞的表現がどのような表現形式で 出現しているかを述べただけであり、「固有名詞や固有名詞を含む 複合語、その省略形」のみしかとってはいけないとは述べた文では ありません。しかも、ここに「など」という言葉が入っているので、 列挙された以外の表現形式があることを暗にいっています。もし、 「固有名詞や固有名詞を含む複合語、その省略形」のみで表現され たものを、固有名詞的表現としたいのであれば、 「固有名詞や固有名詞を含む複合語、その省略形で表現されたもののみを、固有 名詞的表現として、タグつけする。」 これくらい限定的に書く必要があると思います。 (この定義はあまりよくないですが) しかし、関根さん自身が、「など」を入れたり、固有名詞の定義がわからない といっているのは、それ以外で抽出したい名称があるからだと思います。 米国議会 <-- これは、米国議会とするんですか? それとも米国議会とするんですか? 大蔵省 国会 また、 「ただし、指示代名詞や普通名詞を利用した照応表現はここでの抽 出対象には含まれない。」 という、定義文が更に、普通名詞の固有名詞的表現が存在するよう な錯覚をおこします。何故なら、普通名詞の固有名詞的表現が存在 しないのであれば、ひとこと、「指示代名詞や普通名詞は抽出対象 でない。」と書けばよいはずですが、わざわざ、「指示代名詞や普 通名詞の語を利用した照応表現」が対象外といっているので、照応 表現以外であれば、抽出対象となり得ると考えてしまいます。 関> 彼があの時買ったアイスクリーム 関> 関> の「アイスクリーム」は固有の物を指していますが、これは 関> 固有表現とはしたくないですよね。(省略と取れない事もないので。) 関> そう言う意味では、まだ3.1の定義は弱いかもしれません。 関> 関> 江里口さんの例では「総務部」が「NTT総務部」の省略形である 関> というのはちょっと難しいですよね。「社会部」はたしかに 関> 「毎日新聞社社会部」の省略形かもしれませんが。。。 関> でも、「ローマ支局」程には明確ではありません。 私は、「総務部」を「NTT総務部」の略であるから抽出すべきとは いっておりません。 (1) NTT総務部長 (2) ○○はNTTに入社、総務部に配属。 (3) ○○はNTTに入社。...総務部時代には、.... (4) 各社の総務部が集まって.... #うまい例が思いつけなくて。 「3.1.1 組織名」の複数の人間から構成され何らかの目的を持った組織の 名称であり、 「3.1 固有名詞的表現」の普通名詞を利用した照応表現ではないので、 組織名であるといっています。普通名詞が対象外であるのであれば、 この議論はする必要はありません。 前にあげた例では、 (1)は、前後に固有名詞がくっついたケース、 (2)は、同一文の文脈から固有のものをさすことがわかるケース (3)は、同一文書の文脈から固有のものをさすことがわかるケース (4)は、固有のものをささないケース でした。(4)は、各社が限定できれば、どの総務部か限定できると反論も ありますが、その議論はここではやりません。 したがって、(2)(3)の総務部を抽出したくないのであれば、 普通名詞が、抽出対象でないことを明示的な定義にする必要があります。 関> 定義にある固有表現の例を固有名詞が含まれているかどうかで眺めた所、 関> 政治団体、法律、理論の名前、以外はほぼ含まれているようです。 関> 「影の内閣」は構成要素に固有名詞はありませんが、全体が 関> 固有名詞であると判断できると思います。 関> 法律、理論は固有名詞が含まれている場合もあるし(理論は特に)、 関> 一般的に世界(または国)にひとつしかない固有の物を指すので 関> 固有物と判定してもいいように思います。 関> うーーん、固有名詞の定義と言われるとちょっと悩みますが、 関> 一応例を眺めてみてください。 ここは、関根さん自身悩んでいるように、固有名詞の定義というものが 曖昧です。繰り返しますが、 「固有名詞や固有名詞を含む複合語、その省略形などの形で表現されている。」 で、「など」とあやふやにしたのはそのためだと理解しています。 ちなみに、私の感覚では、衆議院も通常は普通名詞になると思います。 例えば、JUMANでは普通名詞と定義されています。固有名詞の定義が 固有のものをさすかどうかという判断によってなされていると思います。 江> (7) 在ナイジェリア日本大使館 江> (8) 在米軍ヘリコプター #意見が変わりました。 江> (9) ベルリン駐在北朝鮮利益代表部 関> >僕は最後のも全部まとめて組織名にしてありました。 関> >たしかに悩んで、大使館の例を見た覚えがあります。 関 関> 在韓米軍と韓国三星のそれぞれ最初の1文字はちょっと違うような > >気もしますが。何とも表現しにくいですけれども。 江> こちらについては、何故、3.1.3.A 組織名の前につく国名 江> の定義を作ったのかが、分からなくなりました。 関> ちょっと調べましたが、少なくともニューヨークの 関> 日本総領事館は「在ニューヨーク日本総領事館」というのが 関> 正式名称のようです。(http://ny.cgj.org/index.html) 関> 総領事館に電話して確認もしました。 関> (領事館の人、変な事を聞いてごめんなさい。 B-) 関> その他、在アトランタ日本総領事館、在インドネシア日本大使館 関> 在ジャカルタ日本総領事館が正式名称のようです。 関> (http://www.rad.net.id/eojind/ryoji.htmはなかなか面白い。) これはびっくりしました。そんなところまで調べていただけるとは。 関> 「韓国三星」というのは特に韓国にある三星を特定したいのではなくて 関> 三星というのは韓国の会社だよという修飾のために付けているのだと 関> 思います。(もちろん文脈によっては、そうでない事もあるでしょうが、 関> 会社の正式名称には付いていないという所で、共通の定義にしたいと 関> 思います。) 江> (8) 在米軍ヘリコプター #意見が変わりました。 江> (9) ベルリン駐在北朝鮮利益代表部 関> については多分正式名ではないでしょうね。 関> 特に(9)は分割する方がいいような気がしてきました。 関> (8)も表記から大使館の例にならいましたが、意味的な修飾に 関> 使用されているという事で、江里口さんの意見に同意します。 関> 3.1.3.Aの定義を作ったのは、METが、「漢字一文字の場合にはこうで、 関> カタカナの時はこう」というように変な基準だったので、本来の名前を 関> 基準に作りなおしましょう、という動機だったと覚えています。 はい。思いだしました。 で、私は、次の2つの理由で反対し、結局私が折れた記憶があります。 ・それをすべて調べるのは無理。 ・本来の名前は、辞書を使わないと人間も分からない。また、システムが 辞書を使わないと正解が得られないようなことをやっても意味がない。 で、今回の「在ニューヨーク日本総領事館」のように全てを調べるのは 実際辛いと思います。 #在ニューヨーク日本総領事館が正式名称だからといって #在韓国インド大使館が正式名称だという保証はないですし。 在ニューヨーク日本総領事館が正式名称と判明した今となっては、 この問題の現実的な解は、大使館、領事館の特別ルールを設けるか、 在日、駐日、ベルリン駐在などの特別ルールを設けるか、 全ての地名+組織名をひとまとめにするかだと思います。 >しかし、固有表現抽出の目的には、独フォルクスワーゲンという >全体が取られるより、本来の組織名である「フォルクスワーゲン」だけが >取れた方が気持いいと思います。 #私は、どちらでも気持ちのよさ(?)はかわりません。 #むしろ、日本銀行福岡支店とするのであれば、 #独フォルクスワーゲンとするほうが割り切れる気もしますし。 -- Eriguchi  1,, Summary-line: 26-Oct eriguchi@lit.rd.nttdata.c #[irex 79] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id FAA15759; Mon, 26 Oct 1998 05:48:46 -0500 Received: from ms.nttdata.co.jp (ms1.nttdata.co.jp [163.135.193.232]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id FAA22170 for ; Mon, 26 Oct 1998 05:48:41 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id TAA27395 for ; Mon, 26 Oct 1998 19:48:42 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id TAA04950 for ; Mon, 26 Oct 1998 19:48:41 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id TAA19613 for ; Mon, 26 Oct 1998 19:48:40 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id TAA17329 for ; Mon, 26 Oct 1998 19:48:40 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA02457; Mon, 26 Oct 98 19:45:01 JST Date: Mon, 26 Oct 98 19:45:01 JST From: Yoshio Eriguchi Message-Id: <9810261045.AA02457@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu Subject: [irex 79] NE definition Content-Type: text Content-Length: 3017 *** EOOH *** Return-Path: Date: Mon, 26 Oct 98 19:45:01 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu Subject: [irex 79] NE definition Content-Type: text Content-Length: 3017 江里口です。 ほとんど確認です。 >タグ付けを再度してみての考えを書きます。 >複合名詞の問題に対する私の立場の説明は以下の通りです。 > > > ・鈴木家 > > 鈴木家 <- これまでは一貫してこのタグ付けでした。 > >例えば「メディチ家」なんていうのが辞書に載っていないか >調べなければいけない。この用な例は無限に近く考えられる。 >それらをすべて辞書引きする訳にはいかない。 で、結局、 鈴木家 にするんですか、それとも 鈴木家 にするんですか? 定義df981025のほうは 鈴木家 に変わっていましたが。 > > ・フランス人形 > > 3.1.A で 基準辞書を広辞苑にした場合は、 > > ・基準辞書に項目として載っておらず、 > > ・「フランス」の「人形」と”の”を入れて置き換え可能で、 > > ・矛盾、揺れがあるようには私には思えない > > ので、 > > フランス人形 > >同じく「日本人形」「博多人形」は? これも、 フランス人形 にするんですか、それとも フランス人形 にするんですか? 定義df981025のほうは フランス人形 に変わっていましたが。 > > ・フィリピン人 > > フィリピン人 > > これも、3.1.Aの定義からは、最後の矛盾、揺れ以外では > > フィリピン人 > > になると思います。 > >同じく「日本人」は? これも、 フィリピン人 にするんですか、それとも フィリピン人 にするんですか? 定義df981025のほうは フランス人 に変わっていましたが。 >これについては、タグ付けしてみて、江里口さんの考えに近づいていますが、 >(例えば、「NGO取材班」にはタグ付けしたい等)でも、どうも「総務部」 >には抵抗があります。あまりに一般的な言葉で、限定される物が付かないと >普通名詞としか取れないという点があります。これに文脈入れてしまうと >前に書いた通り、普通名詞でも固有の物を指す物(彼が買ったアイスクリーム) >は抽出しなければいけないという事になってしまいそうで嫌なのです。 >何かいい説明があったら聞かせてください。 ちょっと、苦しいかんがえかたですが、 「総務部」は、NTT総務部のことを指していることは明確ですが、 「アイスクリームは」は、何を指しているかは依然として不明です。 なにをもって、固有のものを指していると考えるかは難しいですが。 >とりあえず、現在の定義(df981025)はこれまでの話と、上記の2点については >私の考えを基に書きました。(2点目はあまり明示的には書いていません) >間も無く、それを基にした私の抽出結果を送ります。 今日、あるいは明日におくれると思います。 -- Eriguchi  1, answered,, Summary-line: 26-Oct eriguchi@lit.rd.nttdata.c #IREX NE TAG Return-Path: Received: from nonki.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id IAA16368; Mon, 26 Oct 1998 08:19:49 -0500 Received: from ms.nttdata.co.jp by nonki.cs.nyu.edu (SMI-8.6/1.20) id IAA16706; Mon, 26 Oct 1998 08:19:46 -0500 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id WAA13623 for ; Mon, 26 Oct 1998 22:19:44 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id WAA14229 for ; Mon, 26 Oct 1998 22:19:43 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id WAA20487 for ; Mon, 26 Oct 1998 22:19:42 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id WAA18388 for ; Mon, 26 Oct 1998 22:19:41 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA03098; Mon, 26 Oct 98 22:16:02 JST Date: Mon, 26 Oct 98 22:16:02 JST From: Yoshio Eriguchi Message-Id: <9810261316.AA03098@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@nonki.cs.nyu.edu Subject: IREX NE TAG Content-Type: text Content-Length: 76989 *** EOOH *** Return-Path: Date: Mon, 26 Oct 98 22:16:02 JST From: Yoshio Eriguchi To: sekine@nonki.cs.nyu.edu Subject: IREX NE TAG Content-Type: text Content-Length: 76989 江里口です。 タグつけしたファイルを送ります。 とりあえず、2回タグつけをして、その後は比較をしているところで ギブアップです。 #かなり違いがあり、修正する気力が今日はなくなりました。 1回目は先週の前半にやっていたところもあり、 定義は首尾一貫していません。 本来なら、私のほうでまとめてメイルをすべきですが、 今日はとりあえず、二つのファイルをそのまま送ります。 できれば、明後日までに、自分のファイルを整理して送りたいと思います。 --------------------------------------------------------------- # # TEST for test.key (eriguchi No.1) # TAGSET ORGANIZATION TAGSET PERSON TAGSET LOCATION TAGSET ARTIFACT TAGSET DATE TAGSET TIME TAGSET MONEY TAGSET PERCENT TAGSET ? DOCNO @ 12 16 96年度 @ 18 23 2―3万円 @ 27 30 大蔵省 @ 33 36 大蔵省 @ 37 39 十日 @ 40 46 一九九六年度 @ 84 90 二万―三万円 @ 97 100 二千円 @ 114 121 九五年度予算案 @ 207 210 文部省 @ 270 274 九五年度 @ 278 283 二十六万円 @ 290 295 二万九千円 @ 338 342 九五年度 @ 347 356 四十一万一千六百円 @ 358 367 四十四万七千六百円 @ 396 400 九四年度 @ 407 412 二十三万円 @ 414 417 三万円 @ 424 429 二万七千円 @ 431 434 二千円 DOCNO @ 3 5 参院 @ 5 7 愛知 @ 18 20 村山 @ 34 36 参院 @ 36 38 愛知 @ 45 48 十一日 @ 51 53 即日 @ 62 66 午後七時 @ 73 76 十時半 DOCNO @ 30 32 村山 @ 41 45 村山内閣 @ 65 67 十日 @ 67 69 午後 @ 70 74 秋田県庁 @ 79 83 村山富市 @ 86 92 大河原太一郎 @ 92 93 農 @ 95 99 浜本万三 @ 99 100 労 @ 102 106 野中広務 @ 106 108 自治 @ 219 222 秋田県 @ 229 237 新多角的貿易交渉 @ 238 248 ウルグアイ・ラウンド @ 567 569 野中 @ 569 571 自治 @ 594 596 昨年 @ 597 606 ミニマム・アクセス @ 607 613 最低輸入義務 @ 646 648 国会 @ 673 675 細川 @ 699 702 自民党 @ 703 706 社会党 @ 729 734 東南アジア DOCNO @ 13 15 連合 @ 34 36 山岸 @ 41 44 山岸章 @ 44 46 連合 @ 124 129 芦田甚之助 @ 136 138 連合 @ 161 163 山岸 @ 185 187 山岸 @ 190 192 芦田 @ 208 212 昨年十月 @ 213 215 山岸 @ 243 245 昨年 @ 251 255 後藤森重 @ 256 259 自治労 @ 263 265 連合 @ 284 288 鷲尾悦也 @ 289 293 鉄鋼労連 @ 298 303 連合事務局 @ 317 319 山岸 @ 331 334 旧同盟 @ 340 342 芦田 @ 342 348 ゼンセン同盟 @ 352 355 旧総評 @ 356 359 自治労 @ 360 363 日教組 @ 372 374 芦田 @ 384 386 山岸 @ 387 389 芦田 @ 390 392 鷲尾 @ 466 468 山岸 @ 518 521 全電通 @ 531 533 五月 @ 555 557 連合 @ 585 587 山岸 @ 622 626 六月下旬 @ 671 672 自 @ 672 673 社 @ 701 707 社民リベラル @ 717 719 三日 @ 720 723 社会党 @ 763 765 山岸 @ 765 767 連合 @ 812 818 六、七千億円 @ 822 824 連合 @ 833 838 三十五億円 @ 839 844 地方連合会 @ 845 849 八十億円 @ 873 875 連合 @ 896 898 山岸 @ 939 942 新生党 @ 943 946 社会党 @ 969 972 自治労 @ 985 987 山岸 @ 993 995 連合 @ 1023 1025 山岸 @ 1034 1037 全電通 @ 1054 1057 公労協 @ 1066 1069 公労協 @ 1123 1125 山岸 @ 1143 1145 芦田 @ 1159 1165 ゼンセン同盟 @ 1193 1197 山田精吾 @ 1199 1203 ゼンセン @ 1222 1224 連合 @ 1254 1256 同盟 @ 1275 1277 芦田 @ 1283 1285 連合 @ 1301 1303 山岸 @ 1382 1384 山岸 @ 1408 1410 芦田 @ 1447 1451 新・新党 @ 1458 1460 芦田 @ 1466 1468 昨年 @ 1493 1495 連合 @ 1519 1521 社会 @ 1522 1524 民社 @ 1559 1561 昨年 @ 1567 1570 民社党 @ 1589 1593 小沢一郎 @ 1594 1597 新生党 @ 1621 1624 旧総評 @ 1630 1632 全逓 @ 1633 1636 全電通 @ 1637 1653 金属労協(IMF・JC)グループ @ 1661 1664 社会党 @ 1675 1678 自治労 @ 1679 1682 日教組 @ 1705 1707 連合 @ 1708 1711 民社党 @ 1716 1719 旧同盟 @ 1736 1740 金属労協 @ 1747 1750 旧総評 @ 1757 1763 旧同盟・JC @ 1781 1783 連合 @ 1784 1787 社会党 @ 1808 1811 民社党 @ 1823 1827 新・新党 @ 1840 1842 村山 @ 1851 1854 自治労 @ 1855 1858 日教組 @ 1869 1871 山岸 @ 1876 1882 社民リベラル @ 1900 1904 新・新党 @ 1921 1923 芦田 @ 1924 1926 連合 @ 1927 1929 村山 DOCNO @ 3 4 米 @ 38 44 ニューヨーク @ 44 46 9日 @ 62 64 米国 @ 72 75 四九% @ 123 124 米 @ 135 145 デル・コンピューター @ 146 148 九日 @ 172 174 米国 @ 251 254 五八% @ 263 264 半 @ 271 273 デル DOCNO @ 3 4 米 @ 14 17 WTO @ 34 40 ロサンゼルス @ 40 43 10日 @ 43 47 児玉平生 @ 48 50 日本 @ 51 53 米国 @ 54 57 カナダ @ 58 62 欧州連合 @ 63 65 EU @ 83 85 十日 @ 85 87 午前 @ 88 90 日本 @ 92 95 十一日 @ 95 97 未明 @ 100 106 ロサンゼルス @ 118 121 十一日 @ 159 161 十日 @ 161 163 午前 @ 167 175 関税貿易一般協定 @ 176 179 ガット @ 186 190 来年一月 @ 197 203 世界貿易機構 @ 204 207 WTO @ 223 228 WTO協定 @ 240 245 WTO協定 @ 270 273 米議会 @ 313 320 通商法三〇一条 @ 321 334 不公正貿易慣行への制裁条項 @ 393 395 十日 @ 395 397 午後 @ 402 405 WTO @ 423 426 十一日 @ 426 428 午前 @ 433 436 WTO @ 459 462 WTO DOCNO @ 3 4 米 @ 4 5 朝 @ 26 30 ベルリン @ 32 36 ベルリン @ 36 39 10日 @ 39 43 岸本卓也 @ 44 55 朝鮮民主主義人民共和国 @ 56 59 北朝鮮 @ 73 75 米国 @ 76 79 北朝鮮 @ 86 88 十日 @ 90 94 ベルリン @ 104 107 北朝鮮 @ 163 166 十二日 @ 173 176 十三日 @ 202 206 午前十時 @ 207 209 日本 @ 212 216 午後五時 @ 219 230 旧東独駐在北朝鮮大使館 @ 237 240 北朝鮮 @ 242 245 金正宇 @ 246 253 対外経済委員会 @ 258 259 米 @ 261 270 ゲーリー・セーモア @ 270 278 国務省拡散問題課 @ 294 308 ベルリン駐在北朝鮮利益代表部 @ 309 312 ドイツ @ 343 345 米国 @ 352 355 北朝鮮 DOCNO @ 9 12 伊藤公 @ 24 31 いとう・いさお @ 40 45 1935年 @ 45 48 宮城県 @ 60 63 66年 @ 64 73 (財)日本体育協会 @ 76 78 広報 @ 81 85 国際部門 @ 107 110 91年 @ 135 143 オリンピックの本 DOCNO @ 9 13 松平康隆 @ 15 25 日本バレーボール協会 @ 30 40 まつだいら・やすたか @ 41 51 日本バレーボール協会 @ 54 59 1930年 @ 59 62 東京都 @ 66 68 慶大 @ 69 73 日本鋼管 @ 84 87 全日本 @ 95 100 ミュンヘン @ 111 115 国際連盟 @ 119 130 日本オリンピック委員会 @ 133 139 選手強化本部 @ 141 153 広島アジア大会日本選手団 DOCNO @ 3 6 ローマ @ 10 14 ロアチア @ 17 20 ローマ @ 22 31 ヨハネ・パウロ2世 @ 32 35 10日 @ 35 36 夕 @ 37 39 日本 @ 41 44 11日 @ 44 46 未明 @ 52 57 クロアチア @ 60 64 ザグレブ @ 70 73 ローマ @ 76 80 旧ユーゴ @ 92 95 11日 @ 107 110 ローマ @ 116 128 ボスニア・ヘルツェゴビナ @ 129 133 サラエボ @ 166 168 国連 @ 181 187 ウィーン支局 DOCNO @ 3 5 台湾 @ 10 12 中国 @ 13 14 米 @ 44 46 北京 @ 46 49 10日 @ 49 54 網谷利一郎 @ 55 57 米国 @ 66 68 台湾 @ 90 93 劉華秋 @ 96 98 十日 @ 99 101 ロイ @ 102 104 中国 @ 104 106 米国 @ 112 114 中国 @ 131 133 台湾 @ 178 179 米 @ 179 180 中 @ 192 197 クリントン @ 197 198 米 @ 203 204 中 @ 216 221 新華社通信 @ 226 227 劉 @ 231 233 米国 @ 243 245 中国 @ 253 255 中国 @ 259 261 台湾 @ 299 300 米 @ 304 306 台湾 @ 310 312 中国 @ 329 331 台湾 @ 337 339 米国 @ 342 343 米 @ 349 350 台 @ 435 442 一九九二年九月 @ 443 445 米国 @ 453 455 台湾 @ 476 478 中国 @ 496 500 ブラウン @ 500 501 米 @ 501 503 商務 @ 509 511 北京 @ 512 515 江沢民 @ 531 533 台湾 @ 539 541 中国 @ 555 557 中国 @ 563 571 関税貿易一般協定 @ 572 575 ガット @ 583 585 米国 @ 595 600 クリントン @ 601 602 中 @ 603 606 天安門 @ 636 638 中国 @ 645 647 米国 DOCNO @ 11 15 50万円 @ 25 32 サッポロビール @ 33 40 サッポロビール @ 51 52 仏 @ 52 57 フラパン社 @ 67 80 フラパン ラブレー バカラ @ 91 95 50万円 @ 105 115 フランソワ・ラブレー @ 127 132 フラパン社 @ 182 186 バカラ社 @ 208 211 40% @ 232 235 26日 @ 237 242 来月31日 @ 254 269 東京都渋谷区恵比寿4の20の1 @ 270 289 サッポロビール(株) ワイン洋酒事業部 @ 291 304 フラパン ラブレー バカラ DOCNO @ 3 5 米国 @ 30 31 日 @ 31 32 米 @ 40 46 ロサンゼルス @ 46 49 10日 @ 49 53 福本容子 @ 54 55 日 @ 55 56 米 @ 85 86 米 @ 169 171 十日 @ 213 215 日本 @ 227 228 米 @ 231 233 月末 @ 257 259 日本 @ 288 289 米 @ 313 314 米 @ 324 327 通産省 @ 348 352 河野洋平 @ 356 357 外 @ 360 361 米 @ 363 367 二十六日 @ 414 416 月末 DOCNO @ 7 13 日本テレコム @ 21 23 大阪 @ 25 27 先週 @ 28 34 日本テレコム @ 39 41 週初 @ 43 46 NTT @ 47 53 日本電信電話 @ 55 58 DDI @ 59 63 第二電電 @ 87 93 日本テレコム @ 168 170 今週 @ 187 189 東証 @ 196 203 1万9900円 @ 205 211 2万500円 DOCNO @ 15 17 河童 @ 65 70 米米クラブ @ 71 81 カールスモーキー石井 @ 83 87 石井竜也 @ 96 98 今冬 @ 106 108 河童 @ 109 112 かっぱ @ 204 208 今年三月 @ 209 211 石井 @ 244 246 河童 @ 248 252 四十年前 @ 344 349 一九九一年 @ 350 359 CBS・ソニー出版 @ 360 369 現ソニーマガジンズ @ 380 384 柴田哲孝 @ 396 404 KAPPA―河童 @ 406 408 茨城 @ 499 501 米国 @ 546 559 ディレクターズ・カンパニー @ 701 704 雄二郎 @ 707 709 太一 @ 725 727 雄太 @ 789 791 石井 @ 822 826 河井真也 @ 867 870 八月末 @ 875 877 柴田 @ 915 917 柴田 @ 967 969 河井 @ 991 993 河井 @ 995 997 柴田 @ 1046 1048 河井 @ 1074 1078 昨年九月 @ 1083 1085 柴田 @ 1097 1101 今年一月 @ 1113 1115 八月 @ 1199 1201 石井 @ 1375 1377 柴田 @ 1419 1421 河井 @ 1449 1451 柴田 @ 1517 1520 川崎浩 DOCNO @ 28 32 安西英明 @ 1225 1231 日本野鳥の会 DOCNO @ 11 14 トルコ @ 23 28 武本金太朗 @ 120 123 1/2 @ 156 159 1/2 DOCNO @ 21 34 ジャパンフットボールリーグ @ 35 38 JFL @ 44 47 10日 @ 48 57 岡山県営陸上競技場 @ 59 62 PJM @ 74 78 川崎製鉄 DOCNO @ 14 16 関東 @ 26 28 関東 @ 45 48 10日 @ 49 60 東京・代々木第二体育館 @ 62 64 拓大 @ 73 76 筑波大 @ 81 83 専大 @ 92 94 中大 @ 99 102 日体大 @ 111 113 法大 @ 118 120 日大 @ 129 131 早大 DOCNO @ 28 32 小林浩美 @ 37 38 米 @ 62 64 9日 @ 65 71 ポートランド @ 72 87 コロンビアエッジウオーターCC @ 145 147 翌日 @ 168 175 バル・スキナー @ 176 178 米国 @ 195 199 小林浩美 DOCNO @ 23 26 武蔵丸 @ 27 30 若ノ花 @ 44 47 十一日 @ 48 56 東京・両国国技館 @ 74 77 武蔵丸 @ 78 81 若ノ花 @ 94 97 武蔵丸 @ 98 101 名古屋 @ 112 114 五日 @ 193 196 若ノ花 @ 282 285 貴ノ花 @ 347 350 貴ノ浪 @ 397 400 武双山 @ 424 427 舞の海 @ 428 431 浜ノ島 @ 432 434 日大 @ 451 455 天野久樹 @ 458 461 貴ノ花 @ 462 465 武蔵丸 @ 475 477 今年 @ 484 487 貴ノ花 @ 489 492 名古屋 @ 502 505 武蔵丸 @ 507 512 毎日新聞社 @ 533 538 両国国技館 @ 594 597 国技館 DOCNO @ 5 7 関西 @ 21 23 関西 @ 35 38 10日 @ 39 41 日生 @ 45 48 大院大 @ 58 61 大商大 @ 64 67 神院大 @ 69 72 神院大 @ 77 80 大経大 DOCNO @ 10 12 西武 @ 15 19 ダイエー @ 20 22 西武 @ 34 39 福岡ドーム @ 40 42 西武 @ 50 52 西武 @ 67 71 ダイエー @ 88 90 工藤 @ 108 111 石井丈 @ 128 131 若田部 @ 162 164 西武 @ 165 169 ダイエー @ 178 180 西武 @ 184 186 鈴木 @ 218 220 伊東 @ 235 236 辻 @ 290 292 工藤 @ 294 298 ダイエー @ 302 306 ダイエー @ 324 326 西武 @ 327 328 森 @ 395 399 ダイエー @ 419 421 西武 @ 489 491 根本 @ 526 528 秋山 @ 530 532 西武 DOCNO @ 28 34 アンサーJr @ 66 75 エルクハートレーク @ 76 85 米ウィスコンシン州 @ 98 100 今季 @ 106 118 アル・アンサー・ジュニア @ 119 121 米国 @ 122 132 ペンスキー・イルモア @ 182 188 UPIS時事 DOCNO @ 87 91 中嶋儀一 @ 98 103 東京・山谷 @ 149 151 山谷 @ 175 177 中嶋 @ 194 196 山谷 @ 235 238 山友会 @ 240 246 台東区清川二 @ 249 251 中嶋 @ 334 336 中嶋 @ 463 466 山友会 @ 525 527 中嶋 @ 651 654 二千円 @ 746 749 山友会 @ 754 756 山谷 @ 760 765 山里相談室 @ 773 776 四年前 @ 858 860 日本 @ 954 956 中嶋 @ 971 973 日本 @ 983 987 ジャパン @ 992 995 アジア @ 1042 1044 中嶋 @ 1064 1072 聖フランシスコ会 @ 1077 1082 山里相談室 @ 1140 1143 十年前 @ 1153 1155 山谷 @ 1393 1399 NGO取材班 @ 1400 1405 斉藤希史子 DOCNO @ 31 33 日本 @ 41 46 毎日新聞社 @ 47 50 NHK @ 66 72 東京・内幸町 @ 73 79 イイノホール @ 122 126 伊藤京子 @ 127 131 畑中良輔 @ 164 167 十三日 @ 167 172 午前十一時 @ 214 218 長島剛子 @ 219 223 国立音大 @ 229 233 山口安子 @ 234 238 東京音大 @ 244 249 日下部祐子 @ 250 256 京都市立芸大 @ 262 266 山本香代 @ 267 271 国立音大 @ 277 281 上田雅美 @ 282 289 エリザベト音大 @ 295 299 松下悦子 @ 300 306 同志社女子大 @ 308 312 西由起子 @ 313 317 東京芸大 @ 323 326 森麻季 @ 331 335 栗林朋子 @ 340 344 中島豊子 @ 345 349 東京音大 @ 355 359 村沢健一 @ 360 364 東京芸大 @ 367 371 中村弘人 @ 375 380 久住庄一郎 @ 388 392 石川誠二 @ 393 398 武蔵野音大 @ 404 408 井上幸一 @ 409 413 東京芸大 @ 419 422 青戸知 @ 427 431 成瀬当正 @ 432 436 東京音大 @ 442 446 小森輝彦 @ 447 451 東京芸大 @ 457 461 浦野智行 @ 464 468 藤村匡人 @ 469 473 大阪音大 @ 479 482 晴雅彦 @ 487 491 佐藤泰弘 @ 492 496 東京芸大 DOCNO @ 27 32 毎日新聞社 @ 40 44 点字毎日 @ 56 63 ニフティサーブ @ 66 72 PC―VAN @ 83 87 点字毎日 @ 88 99 1922(大正11)年 @ 154 158 点字毎日 @ 328 334 PC―VAN @ 337 344 ニフティサーブ @ 347 350 16日 @ 388 391 50円 DOCNO @ 3 8 JR東日本 @ 33 41 24万5000円 @ 51 59 1億2000万円 @ 67 72 JR東日本 @ 138 140 十日 @ 181 188 二十四万五千円 @ 193 199 一億二千万円 @ 210 214 鉄道の日 @ 249 253 五百万円 @ 301 306 JR東日本 @ 307 315 一九九一年三月末 @ 342 351 乗車券管理センター @ 352 357 東京都港区 @ 361 363 国鉄 @ 453 456 一万円 @ 500 504 百二十円 @ 505 509 百四十円 @ 588 591 営業部 @ 651 655 鉄道の日 @ 657 662 十月十四日 @ 664 666 当日 @ 740 746 鉄道局業務課 DOCNO @ 5 7 中国 @ 15 20 100万円 @ 26 30 東京入管 @ 35 42 東京入国管理局 @ 77 80 百万円 @ 90 97 警視庁捜査三課 @ 98 101 池袋署 @ 102 104 十日 @ 105 111 浦和市領家三 @ 116 120 警備五課 @ 123 127 神田崇成 @ 151 153 神田 @ 157 161 五月下旬 @ 170 174 第二庁舎 @ 175 183 東京都北区西が丘 @ 199 201 中国 @ 227 231 二十九日 @ 232 235 浦和市 @ 262 265 百万円 @ 278 280 中国 @ 284 290 五月二十三日 @ 291 297 出入国管理法 @ 347 352 六月十三日 @ 384 387 百万円 @ 402 404 七月 @ 405 408 池袋署 @ 427 429 神田 @ 449 451 神田 @ 548 556 法務省入国管理局 @ 557 561 小林域泰 @ 561 564 総務課 DOCNO @ 3 5 関東 @ 43 46 十一日 @ 46 50 午前零時 @ 51 55 伊豆諸島 @ 56 59 八丈島 @ 85 86 朝 @ 88 91 八丈島 @ 97 99 午後 @ 101 105 房総半島 @ 114 116 関東 @ 134 137 気象庁 @ 221 223 関東 @ 228 232 伊豆半島 @ 233 236 十一日 @ 236 237 夕 DOCNO @ 18 22 河島英五 @ 59 64 一九六二年 @ 87 91 堀江謙一 @ 119 124 石原裕次郎 @ 130 139 太平洋ひとりぼっち @ 151 153 堀江 @ 185 187 堀江 @ 205 211 マルコポーロ @ 212 217 コロンブス @ 354 356 堀江 @ 454 457 生駒山 DOCNO @ 22 26 藤田宜永 @ 1510 1512 次週 @ 1515 1520 小池真理子 DOCNO @ 8 11 NZ便 @ 12 14 未明 @ 18 24 関西国際空港 @ 34 36 大阪 @ 38 48 ニュージーランド航空 @ 49 53 日本航空 @ 60 63 97便 @ 64 66 十日 @ 67 73 オークランド @ 80 86 関西国際空港 @ 97 104 午後十一時十分 @ 119 125 オークランド @ 127 130 98便 @ 145 148 十一日 @ 148 152 午前一時 @ 185 189 午後九時 @ 202 206 大阪空港 DOCNO @ 20 23 野辺山 @ 28 33 長谷川哲夫 @ 43 47 21世紀 @ 72 75 八ケ岳 @ 82 95 国立天文台野辺山電波天文台 @ 144 150 九月二十三日 @ 151 155 秋分の日 @ 164 172 野辺山電波天文台 @ 184 186 昨年 @ 294 298 東京大学 @ 318 320 今年 @ 433 443 野辺山宇宙電波観測所 @ 513 518 二十一世紀 @ 538 540 日本 @ 574 577 野辺山 @ 808 813 一九九六年 @ 998 1000 チリ @ 1001 1005 アンデス @ 1008 1011 ハワイ @ 1012 1019 マウナケア山頂 @ 1061 1066 二十一世紀 @ 1081 1083 日本 @ 1099 1102 野辺山 @ 1137 1146 東大天文学センター @ 1152 1155 野辺山 DOCNO @ 21 23 滋賀 @ 25 27 大阪 @ 29 31 十日 @ 31 38 午後五時十五分 @ 41 52 滋賀県蒲生郡日野町北脇 @ 53 59 国道307号 @ 65 77 滋賀県警防犯部機動警察隊 @ 145 147 八時 @ 240 246 福井県武生市 DOCNO @ 27 32 望月三起也 @ 91 93 日本 @ 101 104 USA @ 132 137 ヨーロッパ @ 204 208 一二〇% @ 223 228 ヨーロッパ @ 237 241 アメリカ @ 244 256 ローズボウル・スタジアム DOCNO @ 11 20 会津のおばあちゃん @ 22 32 磐越西線・会津若松駅 @ 47 50 鶴ケ城 @ 53 56 白虎隊 @ 65 69 会津若松 @ 96 105 会津のおばあちゃん @ 117 124 伯養軒若松支店 @ 129 133 石垣孔三 @ 307 309 会津 @ 448 450 会津 @ 496 502 10年ほど前 @ 543 551 おばあちゃん弁当 @ 579 584 1030円 DOCNO @ 9 17 ドナルド・キーン @ 19 26 コロンビア大学 @ 41 49 ドナルド・キーン @ 50 57 コロンビア大学 @ 62 64 日本 @ 68 73 1922年 @ 73 79 ニューヨーク @ 86 91 コロンビア @ 92 97 ハーバード @ 98 104 ケンブリッジ @ 114 117 53年 @ 117 119 京大 @ 122 128 日本文学大賞 @ 129 133 菊池寛賞 @ 156 158 日本 @ 189 193 3分の1 @ 194 196 米国 @ 201 203 日本 DOCNO @ 21 25 入江貴久 @ 220 227 神奈川県大和市 DOCNO @ 19 23 椎葉祐之 @ 44 47 琵琶湖 @ 190 196 大阪市住吉区 ---------------------------------------------------- # # TEST for test.key (eriguchi No.2) # TAGSET ORGANIZATION TAGSET PERSON TAGSET LOCATION TAGSET ARTIFACT TAGSET DATE TAGSET TIME TAGSET MONEY TAGSET PERCENT TAGSET ? DOCNO @ 12 16 96年度 @ 18 23 2―3万円 @ 27 30 大蔵省 @ 33 36 大蔵省 @ 37 39 十日 @ 40 46 一九九六年度 @ 84 90 二万―三万円 @ 97 100 二千円 @ 114 121 九五年度予算案 @ 207 210 文部省 @ 270 274 九五年度 @ 278 283 二十六万円 @ 290 295 二万九千円 @ 338 342 九五年度 @ 347 356 四十一万一千六百円 @ 358 367 四十四万七千六百円 @ 396 400 九四年度 @ 407 412 二十三万円 @ 414 417 三万円 @ 424 429 二万七千円 @ 431 434 二千円 DOCNO @ 3 5 参院 @ 5 7 愛知 @ 18 20 村山 @ 34 36 参院 @ 36 38 愛知 @ 45 48 十一日 @ 51 53 即日 @ 62 66 午後七時 @ 73 76 十時半 DOCNO @ 30 32 村山 @ 41 45 村山内閣 @ 65 67 十日 @ 67 69 午後 @ 70 74 秋田県庁 @ 79 83 村山富市 @ 86 92 大河原太一郎 @ 92 93 農 @ 95 99 浜本万三 @ 99 100 労 @ 102 106 野中広務 @ 106 108 自治 @ 219 222 秋田県 @ 229 237 新多角的貿易交渉 @ 238 248 ウルグアイ・ラウンド @ 426 431 二十一世紀 @ 567 569 野中 @ 569 571 自治 @ 594 596 昨年 @ 646 648 国会 @ 673 675 細川 @ 699 702 自民党 @ 703 706 社会党 @ 729 734 東南アジア DOCNO @ 13 15 連合 @ 34 36 山岸 @ 41 44 山岸章 @ 44 46 連合 @ 124 129 芦田甚之助 @ 136 138 連合 @ 161 163 山岸 @ 185 187 山岸 @ 190 192 芦田 @ 208 212 昨年十月 @ 213 215 山岸 @ 243 245 昨年 @ 251 255 後藤森重 @ 256 259 自治労 @ 263 265 連合 @ 284 288 鷲尾悦也 @ 289 293 鉄鋼労連 @ 298 303 連合事務局 @ 317 319 山岸 @ 331 334 旧同盟 @ 340 348 芦田ゼンセン同盟 @ 352 355 旧総評 @ 356 359 自治労 @ 360 363 日教組 @ 372 374 芦田 @ 384 386 山岸 @ 387 389 芦田 @ 390 392 鷲尾 @ 466 468 山岸 @ 518 521 全電通 @ 531 533 五月 @ 555 557 連合 @ 585 587 山岸 @ 622 626 六月下旬 @ 671 672 自 @ 672 673 社 @ 682 684 連合 @ 701 707 社民リベラル @ 717 719 三日 @ 720 723 社会党 @ 763 765 山岸 @ 765 767 連合 @ 812 818 六、七千億円 @ 822 824 連合 @ 833 838 三十五億円 @ 839 844 地方連合会 @ 873 875 連合 @ 896 898 山岸 @ 939 942 新生党 @ 943 946 社会党 @ 969 972 自治労 @ 985 987 山岸 @ 993 995 連合 @ 1023 1025 山岸 @ 1034 1037 全電通 @ 1054 1057 公労協 @ 1066 1069 公労協 @ 1073 1075 国会 @ 1123 1125 山岸 @ 1143 1145 芦田 @ 1159 1165 ゼンセン同盟 @ 1193 1197 山田精吾 @ 1199 1203 ゼンセン @ 1222 1224 連合 @ 1234 1236 総評 @ 1254 1256 同盟 @ 1275 1277 芦田 @ 1283 1285 連合 @ 1301 1303 山岸 @ 1382 1384 山岸 @ 1408 1410 芦田 @ 1447 1451 新・新党 @ 1458 1460 芦田 @ 1466 1468 昨年 @ 1472 1474 連合 @ 1493 1495 連合 @ 1519 1521 社会 @ 1522 1524 民社 @ 1551 1554 自動車 @ 1555 1557 電力 @ 1559 1561 昨年 @ 1567 1570 民社党 @ 1589 1593 小沢一郎 @ 1594 1597 新生党 @ 1621 1624 旧総評 @ 1630 1632 全逓 @ 1633 1636 全電通 @ 1637 1653 金属労協(IMF・JC)グループ @ 1661 1664 社会党 @ 1675 1678 自治労 @ 1679 1682 日教組 @ 1705 1707 連合 @ 1708 1711 民社党 @ 1716 1719 旧同盟 @ 1720 1723 自動車 @ 1724 1726 鉄鋼 @ 1727 1729 電機 @ 1736 1740 金属労協 @ 1747 1750 旧総評 @ 1757 1760 旧同盟 @ 1761 1763 JC @ 1781 1783 連合 @ 1784 1787 社会党 @ 1808 1811 民社党 @ 1817 1820 旧連立 @ 1823 1827 新・新党 @ 1840 1842 村山 @ 1851 1854 自治労 @ 1855 1858 日教組 @ 1869 1871 山岸 @ 1876 1882 社民リベラル @ 1896 1898 連合 @ 1900 1904 新・新党 @ 1921 1923 芦田 @ 1924 1926 連合 @ 1927 1929 村山 DOCNO @ 3 4 米 @ 38 44 ニューヨーク @ 44 46 9日 @ 46 48 時事 @ 62 64 米国 @ 72 75 四九% @ 123 124 米 @ 135 145 デル・コンピューター @ 146 148 九日 @ 172 174 米国 @ 251 254 五八% @ 271 273 デル DOCNO @ 3 6 米議会 @ 14 17 WTO @ 34 40 ロサンゼルス @ 40 43 10日 @ 43 47 児玉平生 @ 48 50 日本 @ 51 53 米国 @ 54 57 カナダ @ 58 62 欧州連合 @ 63 65 EU @ 83 85 十日 @ 85 87 午前 @ 88 90 日本 @ 92 95 十一日 @ 95 97 未明 @ 100 106 ロサンゼルス @ 118 121 十一日 @ 159 161 十日 @ 161 163 午前 @ 167 175 関税貿易一般協定 @ 176 179 ガット @ 186 190 来年一月 @ 197 203 世界貿易機構 @ 204 207 WTO @ 223 228 WTO協定 @ 240 245 WTO協定 @ 270 273 米議会 @ 313 320 通商法三〇一条 @ 321 334 不公正貿易慣行への制裁条項 @ 393 395 十日 @ 395 397 午後 @ 402 405 WTO @ 423 426 十一日 @ 426 428 午前 @ 433 436 WTO @ 459 462 WTO DOCNO @ 3 4 米 @ 4 5 朝 @ 26 30 ベルリン @ 32 36 ベルリン @ 36 39 10日 @ 39 43 岸本卓也 @ 44 55 朝鮮民主主義人民共和国 @ 56 59 北朝鮮 @ 73 75 米国 @ 76 79 北朝鮮 @ 86 88 十日 @ 90 94 ベルリン @ 104 107 北朝鮮 @ 163 166 十二日 @ 173 176 十三日 @ 202 206 午前十時 @ 207 209 日本 @ 212 216 午後五時 @ 219 230 旧東独駐在北朝鮮大使館 @ 237 240 北朝鮮 @ 242 245 金正宇 @ 246 253 対外経済委員会 @ 258 259 米 @ 261 270 ゲーリー・セーモア @ 270 278 国務省拡散問題課 @ 294 308 ベルリン駐在北朝鮮利益代表部 @ 309 312 ドイツ @ 343 345 米国 @ 352 355 北朝鮮 DOCNO @ 9 12 伊藤公 @ 24 31 いとう・いさお @ 40 45 1935年 @ 45 48 宮城県 @ 60 63 66年 @ 64 73 (財)日本体育協会 @ 76 78 広報 @ 81 85 国際部門 @ 107 110 91年 @ 135 143 オリンピックの本 DOCNO @ 9 13 松平康隆 @ 15 25 日本バレーボール協会 @ 30 40 まつだいら・やすたか @ 41 51 日本バレーボール協会 @ 54 59 1930年 @ 59 62 東京都 @ 66 68 慶大 @ 69 73 日本鋼管 @ 95 100 ミュンヘン @ 111 115 国際連盟 @ 119 130 日本オリンピック委員会 @ 133 139 選手強化本部 @ 141 153 広島アジア大会日本選手団 DOCNO @ 3 6 ローマ @ 9 14 クロアチア @ 17 20 ローマ @ 22 31 ヨハネ・パウロ2世 @ 32 35 10日 @ 35 36 夕 @ 37 39 日本 @ 41 44 11日 @ 44 46 未明 @ 52 57 クロアチア @ 60 64 ザグレブ @ 70 73 ローマ @ 76 80 旧ユーゴ @ 92 95 11日 @ 107 110 ローマ @ 116 128 ボスニア・ヘルツェゴビナ @ 129 133 サラエボ @ 166 168 国連 @ 181 187 ウィーン支局 DOCNO @ 3 5 台湾 @ 10 12 中国 @ 13 14 米 @ 44 46 北京 @ 46 49 10日 @ 49 54 網谷利一郎 @ 55 57 米国 @ 66 68 台湾 @ 84 89 中国外務省 @ 90 93 劉華秋 @ 96 98 十日 @ 99 101 ロイ @ 102 104 中国 @ 104 106 米国 @ 112 114 中国 @ 131 133 台湾 @ 158 165 対中最恵国待遇 @ 166 169 MFN @ 178 179 米 @ 179 180 中 @ 192 197 クリントン @ 197 198 米 @ 203 204 中 @ 216 221 新華社通信 @ 226 227 劉 @ 231 233 米国 @ 243 245 中国 @ 253 255 中国 @ 259 261 台湾 @ 299 300 米 @ 304 306 台湾 @ 310 312 中国 @ 329 331 台湾 @ 337 339 米国 @ 342 343 米 @ 349 350 台 @ 435 442 一九九二年九月 @ 443 445 米国 @ 446 452 F16戦闘機 @ 453 455 台湾 @ 476 478 中国 @ 496 500 ブラウン @ 500 501 米 @ 501 503 商務 @ 509 511 北京 @ 512 515 江沢民 @ 531 533 台湾 @ 539 541 中国 @ 555 557 中国 @ 563 571 関税貿易一般協定 @ 572 575 ガット @ 583 585 米国 @ 595 600 クリントン @ 601 602 中 @ 603 606 天安門 @ 636 638 中国 @ 645 647 米国 DOCNO @ 11 15 50万円 @ 25 32 サッポロビール @ 33 40 サッポロビール @ 51 57 仏フラパン社 @ 67 80 フラパン ラブレー バカラ @ 91 95 50万円 @ 105 115 フランソワ・ラブレー @ 127 132 フラパン社 @ 182 186 バカラ社 @ 208 211 40% @ 232 235 26日 @ 237 242 来月31日 @ 254 269 東京都渋谷区恵比寿4の20の1 @ 270 289 サッポロビール(株) ワイン洋酒事業部 @ 291 304 フラパン ラブレー バカラ DOCNO @ 3 5 米国 @ 30 31 日 @ 31 32 米 @ 40 46 ロサンゼルス @ 46 49 10日 @ 49 53 福本容子 @ 54 55 日 @ 55 56 米 @ 85 86 米 @ 169 171 十日 @ 213 215 日本 @ 227 228 米 @ 231 233 月末 @ 257 259 日本 @ 288 289 米 @ 313 314 米 @ 324 327 通産省 @ 348 352 河野洋平 @ 356 357 外 @ 360 361 米 @ 363 367 二十六日 @ 414 416 月末 DOCNO @ 7 13 日本テレコム @ 21 23 大阪 @ 25 27 先週 @ 28 34 日本テレコム @ 43 46 NTT @ 47 53 日本電信電話 @ 55 58 DDI @ 59 63 第二電電 @ 87 94 日本テレコム株 @ 168 170 今週 @ 187 189 東証 @ 196 203 1万9900円 @ 205 211 2万500円 DOCNO @ 15 17 河童 @ 65 70 米米クラブ @ 71 81 カールスモーキー石井 @ 83 87 石井竜也 @ 96 98 今冬 @ 106 108 河童 @ 109 112 かっぱ @ 204 208 今年三月 @ 209 211 石井 @ 244 246 河童 @ 248 252 四十年前 @ 344 349 一九九一年 @ 350 359 CBS・ソニー出版 @ 360 369 現ソニーマガジンズ @ 380 384 柴田哲孝 @ 396 404 KAPPA―河童 @ 406 408 茨城 @ 499 501 米国 @ 546 559 ディレクターズ・カンパニー @ 701 704 雄二郎 @ 707 709 太一 @ 725 727 雄太 @ 789 791 石井 @ 822 826 河井真也 @ 867 870 八月末 @ 875 877 柴田 @ 915 917 柴田 @ 967 969 河井 @ 991 993 河井 @ 995 997 柴田 @ 1046 1048 河井 @ 1074 1078 昨年九月 @ 1083 1085 柴田 @ 1097 1101 今年一月 @ 1113 1115 八月 @ 1199 1201 石井 @ 1375 1377 柴田 @ 1419 1421 河井 @ 1449 1451 柴田 @ 1517 1520 川崎浩 DOCNO @ 28 32 安西英明 @ 1225 1231 日本野鳥の会 DOCNO @ 11 14 トルコ @ 23 28 武本金太朗 @ 120 123 1/2 @ 156 159 1/2 DOCNO @ 35 38 JFL @ 44 47 10日 @ 48 57 岡山県営陸上競技場 @ 59 62 PJM @ 74 78 川崎製鉄 DOCNO @ 14 16 関東 @ 26 28 関東 @ 45 48 10日 @ 49 60 東京・代々木第二体育館 @ 62 64 拓大 @ 73 76 筑波大 @ 81 83 専大 @ 92 94 中大 @ 99 102 日体大 @ 111 113 法大 @ 118 120 日大 @ 129 131 早大 DOCNO @ 28 32 小林浩美 @ 37 38 米 @ 62 64 9日 @ 65 71 ポートランド @ 72 87 コロンビアエッジウオーターCC @ 168 175 バル・スキナー @ 176 178 米国 @ 195 199 小林浩美 @ 215 217 AP DOCNO @ 23 26 武蔵丸 @ 27 30 若ノ花 @ 44 47 十一日 @ 48 56 東京・両国国技館 @ 74 77 武蔵丸 @ 78 81 若ノ花 @ 94 97 武蔵丸 @ 98 101 名古屋 @ 112 114 五日 @ 115 120 横綱審議委 @ 193 196 若ノ花 @ 282 285 貴ノ花 @ 347 350 貴ノ浪 @ 397 400 武双山 @ 424 427 舞の海 @ 428 431 浜ノ島 @ 432 434 日大 @ 451 455 天野久樹 @ 458 461 貴ノ花 @ 462 465 武蔵丸 @ 472 474 十日 @ 475 477 今年 @ 484 487 貴ノ花 @ 489 492 名古屋 @ 502 505 武蔵丸 @ 507 512 毎日新聞社 @ 533 538 両国国技館 @ 594 597 国技館 DOCNO @ 5 7 関西 @ 21 23 関西 @ 45 48 大院大 @ 50 53 大院大 @ 58 61 大商大 @ 64 67 神院大 @ 69 72 神院大 @ 77 80 大経大 DOCNO @ 10 12 西武 @ 15 19 ダイエー @ 20 22 西武 @ 34 39 福岡ドーム @ 40 42 西武 @ 50 52 西武 @ 67 71 ダイエー @ 88 90 工藤 @ 108 111 石井丈 @ 128 131 若田部 @ 162 164 西武 @ 165 169 ダイエー @ 178 180 西武 @ 184 186 鈴木 @ 202 204 安部 @ 218 220 伊東 @ 235 236 辻 @ 274 278 ダイエー @ 290 292 工藤 @ 294 298 ダイエー @ 302 306 ダイエー @ 324 326 西武 @ 327 328 森 @ 395 399 ダイエー @ 419 421 西武 @ 489 491 根本 @ 526 528 秋山 @ 530 532 西武 DOCNO @ 28 34 アンサーJr @ 63 65 9日 @ 66 75 エルクハートレーク @ 76 85 米ウィスコンシン州 @ 106 118 アル・アンサー・ジュニア @ 119 121 米国 @ 122 132 ペンスキー・イルモア @ 182 188 UPIS時事 DOCNO @ 87 91 中嶋儀一 @ 98 103 東京・山谷 @ 149 151 山谷 @ 175 177 中嶋 @ 194 196 山谷 @ 235 238 山友会 @ 240 246 台東区清川二 @ 249 251 中嶋 @ 334 336 中嶋 @ 463 466 山友会 @ 651 654 二千円 @ 741 743 中嶋 @ 746 749 山友会 @ 754 756 山谷 @ 760 765 山里相談室 @ 773 776 四年前 @ 858 860 日本 @ 954 956 中嶋 @ 971 973 日本 @ 983 987 ジャパン @ 992 995 アジア @ 1042 1044 中嶋 @ 1064 1072 聖フランシスコ会 @ 1077 1082 山里相談室 @ 1140 1143 十年前 @ 1153 1155 山谷 @ 1393 1399 NGO取材班 @ 1400 1405 斉藤希史子 DOCNO @ 31 33 日本 @ 41 46 毎日新聞社 @ 47 50 NHK @ 63 65 十日 @ 66 72 東京・内幸町 @ 73 79 イイノホール @ 122 126 伊藤京子 @ 127 131 畑中良輔 @ 164 167 十三日 @ 167 172 午前十一時 @ 214 218 長島剛子 @ 219 223 国立音大 @ 229 233 山口安子 @ 234 238 東京音大 @ 244 249 日下部祐子 @ 250 256 京都市立芸大 @ 262 266 山本香代 @ 267 271 国立音大 @ 277 281 上田雅美 @ 282 289 エリザベト音大 @ 295 299 松下悦子 @ 300 306 同志社女子大 @ 308 312 西由起子 @ 313 317 東京芸大 @ 323 326 森麻季 @ 331 335 栗林朋子 @ 340 344 中島豊子 @ 345 349 東京音大 @ 355 359 村沢健一 @ 360 364 東京芸大 @ 367 371 中村弘人 @ 375 380 久住庄一郎 @ 388 392 石川誠二 @ 393 398 武蔵野音大 @ 404 408 井上幸一 @ 409 413 東京芸大 @ 419 422 青戸知 @ 427 431 成瀬当正 @ 432 436 東京音大 @ 442 446 小森輝彦 @ 447 451 東京芸大 @ 457 461 浦野智行 @ 464 468 藤村匡人 @ 469 473 大阪音大 @ 479 482 晴雅彦 @ 487 491 佐藤泰弘 @ 492 496 東京芸大 DOCNO @ 8 12 点字毎日 @ 27 32 毎日新聞社 @ 40 44 点字毎日 @ 56 63 ニフティサーブ @ 66 72 PC―VAN @ 83 87 点字毎日 @ 88 99 1922(大正11)年 @ 154 158 点字毎日 @ 328 334 PC―VAN @ 337 344 ニフティサーブ @ 347 350 16日 @ 388 391 50円 @ 403 408 毎日新聞社 DOCNO @ 3 8 JR東日本 @ 33 41 24万5000円 @ 51 59 1億2000万円 @ 67 72 JR東日本 @ 181 188 二十四万五千円 @ 193 199 一億二千万円 @ 210 214 鉄道の日 @ 249 253 五百万円 @ 301 306 JR東日本 @ 307 315 一九九一年三月末 @ 342 351 乗車券管理センター @ 352 357 東京都港区 @ 361 363 国鉄 @ 453 456 一万円 @ 500 504 百二十円 @ 505 509 百四十円 @ 588 591 営業部 @ 651 655 鉄道の日 @ 657 662 十月十四日 @ 664 666 当日 @ 671 674 運輸省 @ 740 746 鉄道局業務課 DOCNO @ 5 7 中国 @ 15 20 100万円 @ 26 30 東京入管 @ 35 42 東京入国管理局 @ 77 80 百万円 @ 90 97 警視庁捜査三課 @ 98 101 池袋署 @ 102 104 十日 @ 105 111 浦和市領家三 @ 116 120 警備五課 @ 123 127 神田崇成 @ 151 153 神田 @ 157 161 五月下旬 @ 170 174 第二庁舎 @ 175 183 東京都北区西が丘 @ 199 201 中国 @ 227 231 二十九日 @ 232 235 浦和市 @ 262 265 百万円 @ 278 280 中国 @ 284 290 五月二十三日 @ 291 297 出入国管理法 @ 347 352 六月十三日 @ 384 387 百万円 @ 402 404 七月 @ 405 408 池袋署 @ 427 429 神田 @ 449 451 神田 @ 515 517 中国 @ 548 556 法務省入国管理局 @ 557 561 小林域泰 @ 561 564 総務課 DOCNO @ 3 5 関東 @ 43 46 十一日 @ 46 50 午前零時 @ 51 59 伊豆諸島・八丈島 @ 85 86 朝 @ 88 91 八丈島 @ 97 99 午後 @ 101 105 房総半島 @ 114 116 関東 @ 134 137 気象庁 @ 221 223 関東 @ 228 232 伊豆半島 @ 233 236 十一日 @ 236 237 夕 DOCNO @ 18 22 河島英五 @ 59 64 一九六二年 @ 87 90 堀江謙 @ 119 124 石原裕次郎 @ 130 139 太平洋ひとりぼっち @ 151 153 堀江 @ 185 187 堀江 @ 205 211 マルコポーロ @ 212 217 コロンブス @ 354 356 堀江 @ 454 457 生駒山 DOCNO @ 22 26 藤田宜永 @ 1515 1520 小池真理子 DOCNO @ 8 11 NZ便 @ 12 14 未明 @ 18 24 関西国際空港 @ 34 36 大阪 @ 38 48 ニュージーランド航空 @ 49 53 日本航空 @ 60 63 97便 @ 64 66 十日 @ 67 73 オークランド @ 80 86 関西国際空港 @ 97 104 午後十一時十分 @ 119 125 オークランド @ 127 130 98便 @ 145 148 十一日 @ 148 152 午前一時 @ 167 169 翌日 @ 169 171 未明 @ 185 189 午後九時 @ 202 206 大阪空港 @ 211 213 翌朝 DOCNO @ 20 23 野辺山 @ 28 33 長谷川哲夫 @ 43 47 21世紀 @ 72 75 八ケ岳 @ 82 95 国立天文台野辺山電波天文台 @ 144 150 九月二十三日 @ 151 155 秋分の日 @ 164 172 野辺山電波天文台 @ 184 186 昨年 @ 294 298 東京大学 @ 318 320 今年 @ 433 443 野辺山宇宙電波観測所 @ 513 518 二十一世紀 @ 538 540 日本 @ 574 577 野辺山 @ 808 813 一九九六年 @ 998 1000 チリ @ 1001 1005 アンデス @ 1008 1011 ハワイ @ 1012 1019 マウナケア山頂 @ 1061 1066 二十一世紀 @ 1081 1083 日本 @ 1099 1102 野辺山 @ 1137 1146 東大天文学センター @ 1152 1155 野辺山 @ 1173 1176 天文台 DOCNO @ 21 23 滋賀 @ 25 27 大阪 @ 29 31 十日 @ 31 38 午後五時十五分 @ 41 52 滋賀県蒲生郡日野町北脇 @ 53 59 国道307号 @ 65 77 滋賀県警防犯部機動警察隊 @ 145 147 八時 @ 154 157 警察隊 @ 240 246 福井県武生市 DOCNO @ 27 32 望月三起也 @ 91 93 日本 @ 101 104 USA @ 132 137 ヨーロッパ @ 204 208 一二〇% @ 223 228 ヨーロッパ @ 237 241 アメリカ @ 244 256 ローズボウル・スタジアム DOCNO @ 11 20 会津のおばあちゃん @ 21 32 −磐越西線・会津若松駅 @ 47 50 鶴ケ城 @ 65 69 会津若松 @ 96 105 会津のおばあちゃん @ 117 124 伯養軒若松支店 @ 129 133 石垣孔三 @ 307 309 会津 @ 448 450 会津 @ 496 502 10年ほど前 @ 543 551 おばあちゃん弁当 @ 579 584 1030円 DOCNO @ 9 17 ドナルド・キーン @ 19 26 コロンビア大学 @ 41 49 ドナルド・キーン @ 50 57 コロンビア大学 @ 62 64 日本 @ 68 73 1922年 @ 73 79 ニューヨーク @ 86 91 コロンビア @ 92 97 ハーバード @ 98 104 ケンブリッジ @ 114 117 53年 @ 117 119 京大 @ 122 128 日本文学大賞 @ 129 133 菊池寛賞 @ 189 193 3分の1 @ 194 196 米国 @ 201 203 日本 DOCNO @ 13 20 アイジンバンク @ 21 25 入江貴久 @ 46 53 アイジンバンク @ 220 227 神奈川県大和市 DOCNO @ 19 23 椎葉祐之 @ 44 47 琵琶湖 @ 190 196 大阪市住吉区 ---------------------------------------------------- -- Eriguchi  1,, Summary-line: 26-Oct eriguchi@lit.rd.nttdata. #IREX NE TAG Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id UAA25870; Mon, 26 Oct 1998 20:13:02 -0500 Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with SMTP id UAA05243 for ; Mon, 26 Oct 1998 20:13:02 -0500 (EST) Received: by noreen.cs.nyu.edu (SMI-8.6/1.20) id UAA14172; Mon, 26 Oct 1998 20:12:26 -0500 Date: Mon, 26 Oct 1998 20:12:26 -0500 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810270112.UAA14172@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Mon, 26 Oct 98 22:16:02 JST <9810261316.AA03098@pittsburgh.lit.rd.nttdata.co.jp> Subject: IREX NE TAG Content-Type: text Content-Length: 759 *** EOOH *** Return-Path: Date: Mon, 26 Oct 1998 20:12:26 -0500 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Mon, 26 Oct 98 22:16:02 JST <9810261316.AA03098@pittsburgh.lit.rd.nttdata.co.jp> Subject: IREX NE TAG Content-Type: text Content-Length: 759 江里口さん: 随分苛苛させてしまっているようで、申し訳ありません。 基本的に、言いたい事は分りますし、だいたい、絶対にきちんと 定義できない事を定義しようとしているんだ という共通理解が ある物と信じています。(そんな話をワシントンでしませんでしたっけ? 人間は固有名詞かどうかなんて認識せずに話しをしているんだ) したがって、あまり熱くなっても不毛ですし、どちらかに割切るしか ないのですよね。 運営の関係上とにかく定義を早く出さなければという制約が私には あります。この点理解してください。基本的に981025を基に予備試験に 突入してしまってもいいと思っています。もちろん、この試験は 公開ではないですし、今後も議論、変更の時間はあります。 どうでしょうか? 関根  1, answered,, Summary-line: 27-Oct eriguchi@lit.rd.nttdata.c #IREX NE TAG Return-Path: Received: from noreen.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id UAA25946; Mon, 26 Oct 1998 20:33:42 -0500 Received: from ms.nttdata.co.jp by noreen.cs.nyu.edu (SMI-8.6/1.20) id UAA14206; Mon, 26 Oct 1998 20:33:41 -0500 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id KAA17784 for ; Tue, 27 Oct 1998 10:33:38 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id KAA16958 for ; Tue, 27 Oct 1998 10:33:37 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id KAA24113 for ; Tue, 27 Oct 1998 10:33:36 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id KAA23180 for ; Tue, 27 Oct 1998 10:33:35 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA05491; Tue, 27 Oct 98 10:29:56 JST Date: Tue, 27 Oct 98 10:29:56 JST From: Yoshio Eriguchi Message-Id: <9810270129.AA05491@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Mon, 26 Oct 1998 20:12:26 -0500 <199810270112.UAA14172@noreen.cs.nyu.edu> Subject: IREX NE TAG Content-Type: text Content-Length: 2178 *** EOOH *** Return-Path: Date: Tue, 27 Oct 98 10:29:56 JST From: Yoshio Eriguchi To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Mon, 26 Oct 1998 20:12:26 -0500 <199810270112.UAA14172@noreen.cs.nyu.edu> Subject: IREX NE TAG Content-Type: text Content-Length: 2178 江里口です。 >随分苛苛させてしまっているようで、申し訳ありません。 苛苛しているように見えましたか。 そんなことはありませんのでご心配なく。 #メイルだとうまく伝わらないもどかしさは感じていましたが。 むしろ、関根さんを困らせていたのではないかと心配していました。 >基本的に、言いたい事は分りますし、だいたい、絶対にきちんと >定義できない事を定義しようとしているんだ という共通理解が >ある物と信じています。(そんな話をワシントンでしませんでしたっけ? >人間は固有名詞かどうかなんて認識せずに話しをしているんだ) はい、その共通理解はあっていると思います。 ただ今回の、文脈により固有のものを指している普通名詞の扱いは、 定義のねっこの部分なので、きっちりした方が良いと思いメイルを 差し上げました。 今回のタグ付け作業で、ところどころ定義を読んでタグ付けしようと すると、自分の考えとは違う結果になることに気がつきました。 多分、我々にはMETでの定義や今までの議論などでしみついた定義が 頭の中にあり、定義書に書かれていないことに対して、その定義を 無意識に使っているように思えます。 「総務部」などは、その顕著な例です。私自身、最初は単独の総務部は タグ付けしないという気になっていたのですが、いざその根拠はどの 定義にあるのかなと探すと、これまでのメイルで述べたのような結果 になってしまいました。 #別に議論を、再開させようという気はないので。 したがって、いずれ今一度、自分のつけたタグの根拠が定義にあるかどうか 確認する作業は必要になると思います。 >したがって、あまり熱くなっても不毛ですし、どちらかに割切るしか >ないのですよね。 ある点で、割り切ることは大切ですし、今がスケジュールの関係上 その時点が今だとも思います。 >運営の関係上とにかく定義を早く出さなければという制約が私には >あります。この点理解してください。基本的に981025を基に予備試験に >突入してしまってもいいと思っています。もちろん、この試験は >公開ではないですし、今後も議論、変更の時間はあります。 >どうでしょうか? 基本的に予備試験後は、定義の変更はない方が良いと思いますが、 必要に応じてやっても良いと思います。 -- Eriguchi  1,, Summary-line: 26-Oct eriguchi@lit.rd.nttdata. #IREX NE TAG Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id UAA25960; Mon, 26 Oct 1998 20:37:23 -0500 Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with SMTP id UAA05452 for ; Mon, 26 Oct 1998 20:37:22 -0500 (EST) Received: by noreen.cs.nyu.edu (SMI-8.6/1.20) id UAA14209; Mon, 26 Oct 1998 20:37:20 -0500 Date: Mon, 26 Oct 1998 20:37:20 -0500 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810270137.UAA14209@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Tue, 27 Oct 98 10:29:56 JST <9810270129.AA05491@pittsburgh.lit.rd.nttdata.co.jp> Subject: IREX NE TAG Content-Type: text Content-Length: 293 *** EOOH *** Return-Path: Date: Mon, 26 Oct 1998 20:37:20 -0500 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Tue, 27 Oct 98 10:29:56 JST <9810270129.AA05491@pittsburgh.lit.rd.nttdata.co.jp> Subject: IREX NE TAG Content-Type: text Content-Length: 293 どうもありがとうございます。 先を急いでいるようで申し訳ないのですが、981025の定義を 公表していいですか? 皆には先週中に公表すると言ってあったので 早めに公表したいのです。 (総務部の問題はとりあえず予備試験が終るまで伏せておきましょう) 関根  1, answered,, Summary-line: 27-Oct eriguchi@lit.rd.nttdata.c #IREX NE TAG Return-Path: Received: from noreen.cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id WAA26444; Mon, 26 Oct 1998 22:03:12 -0500 Received: from ms.nttdata.co.jp by noreen.cs.nyu.edu (SMI-8.6/1.20) id WAA14262; Mon, 26 Oct 1998 22:03:09 -0500 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id MAA00342 for ; Tue, 27 Oct 1998 12:03:08 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id MAA25819 for ; Tue, 27 Oct 1998 12:03:07 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id MAA25938 for ; Tue, 27 Oct 1998 12:03:06 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id MAA24390 for ; Tue, 27 Oct 1998 12:03:05 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA05796; Tue, 27 Oct 98 11:59:25 JST Date: Tue, 27 Oct 98 11:59:25 JST From: Yoshio Eriguchi Message-Id: <9810270259.AA05796@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Mon, 26 Oct 1998 20:37:20 -0500 <199810270137.UAA14209@noreen.cs.nyu.edu> Subject: IREX NE TAG Content-Type: text Content-Length: 419 *** EOOH *** Return-Path: Date: Tue, 27 Oct 98 11:59:25 JST From: Yoshio Eriguchi To: sekine@noreen.cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Mon, 26 Oct 1998 20:37:20 -0500 <199810270137.UAA14209@noreen.cs.nyu.edu> Subject: IREX NE TAG Content-Type: text Content-Length: 419 関根さん: 打合せがはいって、回答が遅れました。 >先を急いでいるようで申し訳ないのですが、981025の定義を >公表していいですか? 皆には先週中に公表すると言ってあったので >早めに公表したいのです。 いいと思います。 >(総務部の問題はとりあえず予備試験が終るまで伏せておきましょう) 了解しました。 私の杞憂で終るかもしれませんし。 -- Eriguchi  1,, Summary-line: 28-Oct eriguchi@lit.rd.nttdata.c #training data & scorer Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id UAA09026 for ; Tue, 27 Oct 1998 20:43:33 -0500 (EST) Received: from ms.nttdata.co.jp (ms1.nttdata.co.jp [163.135.193.232]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id UAA24021 for ; Tue, 27 Oct 1998 20:43:28 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id KAA01615 for ; Wed, 28 Oct 1998 10:43:26 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id KAA25208 for ; Wed, 28 Oct 1998 10:43:26 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id KAA07763 for ; Wed, 28 Oct 1998 10:43:25 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id KAA15965 for ; Wed, 28 Oct 1998 10:43:24 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA11133; Wed, 28 Oct 98 10:39:43 JST Date: Wed, 28 Oct 98 10:39:43 JST From: Yoshio Eriguchi Message-Id: <9810280139.AA11133@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu Subject: training data & scorer Content-Type: text Content-Length: 626 *** EOOH *** Date: Wed, 28 Oct 98 10:39:43 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu Subject: training data & scorer Content-Type: text Content-Length: 626 江里口です。 予備試験に向けての準備、おつかれ様です。 いくつか気づいたことを述べます。 開発用のトレーニングデータの修正版は出さないのでしょうか? とりあえず、今日中に訂正できた分を関根さんに送ります。 #実は、こないだタグ付けしたデータはトレーニングデータと #思っていました。 あと、多少のバグがあったとしてもその旨をつたえて、スコアラー を公開した方が良いのではないでしょうか? 開発する時に、MET-2なみのレポートがでるスコアラーがあると ずいぶん作業が楽になりました。 内元さんのスコアラーも、レポート機能があるようですし。 -- Eriguchi  1, answered,, Summary-line: 27-Oct eriguchi@lit.rd.nttdata. #training data & scorer Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id WAA09529 for ; Tue, 27 Oct 1998 22:49:26 -0500 (EST) Received: from nonki.cs.nyu.edu (nonki.cs.nyu.edu [128.122.140.99]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id WAA25178 for ; Tue, 27 Oct 1998 22:49:24 -0500 (EST) Received: (from sekine@localhost) by nonki.cs.nyu.edu (8.9.1/8.9.1) id WAA17154; Tue, 27 Oct 1998 22:49:23 -0500 (EST) Date: Tue, 27 Oct 1998 22:49:23 -0500 (EST) From: Satoshi Sekine Message-Id: <199810280349.WAA17154@nonki.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Wed, 28 Oct 98 10:39:43 JST <9810280139.AA11133@pittsburgh.lit.rd.nttdata.co.jp> Subject: training data & scorer Content-Type: text Content-Length: 748 *** EOOH *** Date: Tue, 27 Oct 1998 22:49:23 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Wed, 28 Oct 98 10:39:43 JST <9810280139.AA11133@pittsburgh.lit.rd.nttdata.co.jp> Subject: training data & scorer Content-Type: text Content-Length: 748 予備試験に向けての準備、おつかれ様です。 とりあえず定義を出す事を考えていましたが、そうですね、 皆予備試験に使えるかどうか分りませんが、出した方がいいのは 確かです。明日時間があったらやってみます。 予備試験のデータはどうですか? 江里口さんのデータをひとつに まとめてから比較しますよね? 新しい定義の・だとか他いくつか 違っていると思われる部分が前にいただいたのにはありました。 スコアラは公開しています。来週頭を目標に新しいバージョンを公開します。 新しいのはオプショナルをちゃんと扱えます。 今の所、個人的にもメイリングリストにも新NE定義の文句は着ていないようですね。 関根 # 家からです。もうすぐ寝ます。夏時間が終った所で時差惚けで眠いです。。  1,, Summary-line: 28-Oct eriguchi@lit.rd.nttdata. #training data & scorer Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id IAA11487 for ; Wed, 28 Oct 1998 08:23:57 -0500 (EST) Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id IAA29323 for ; Wed, 28 Oct 1998 08:23:56 -0500 (EST) Received: (from sekine@localhost) by noreen.cs.nyu.edu (8.9.1/8.9.1) id IAA15764; Wed, 28 Oct 1998 08:23:52 -0500 (EST) Date: Wed, 28 Oct 1998 08:23:52 -0500 (EST) From: Satoshi Sekine Message-Id: <199810281323.IAA15764@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Wed, 28 Oct 98 18:11:44 JST <9810280911.AA13362@pittsburgh.lit.rd.nttdata.co.jp> Subject: training data & scorer Content-Type: text Content-Length: 18836 *** EOOH *** Date: Wed, 28 Oct 1998 08:23:52 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Wed, 28 Oct 98 18:11:44 JST <9810280911.AA13362@pittsburgh.lit.rd.nttdata.co.jp> Subject: training data & scorer Content-Type: text Content-Length: 18836 バグはわかりました。 来週頭に公開するteaの新しいバージョンでは治っているはずです。 実は、mai2sgmlに2つのバージョンがあって、かなり古いやつで sgmlファイルを作ったら、記事番号はDOCIDになっています。 これをいつかの段階で、MUCにならってDOCNOと変更したのでした。 それで、江里口さんのデータにもDOCNOの後に番号がないのですね。 以下のファイルをtea.cとしてコンパイルして使ってください。 データの比較は今日中にやります。 # 明日は大学に来ないので(メイルは見ますが、時間のかかる # 内容の返事はできないと思います)、今日の次は金曜です。 関根 ---- tea.c ----- /***************************************************************/ /* tea (Tag Extraction and Annotation) */ /* */ /* Usage: tea {-a|-e} index_file doc_file */ /* */ /* Annotate tag to documents or extract tag from documents. */ /* See README file for more detail. */ /* */ /* Option: */ /* e : Extraction mode (Output to index file) */ /* a : Annotation mode (Output to stdout) */ /* */ /* */ /* Initial November, 1, 1997 */ /* Latest October, 8, 1998 */ /* Author Satoshi Sekine (NYU) */ /***************************************************************/ /********************/ /* Include files */ /********************/ #include #include /********************/ /* Macro variables */ /********************/ #define DEBUG 1 #define MAX_DOCNO 10000 /* Number of documents treated by the system */ #define MAX_DOC_LEN 50000 /* Length of document */ #define MAX_TAGSET 100 /* Number of possible tagset */ #define MAX_TAG_STRING 50 /* Length of tag string */ #define MAX_DOCNO_STRING 50 /* Length of document number string */ #define MAX_WORD_STRING 5000 /* Length of word string */ #define MAX_TAG_INFO 1000 /* Number of tags in a single document */ #define MAX_FILENAME 500 /* Length of filename */ #define MAX_LINE 5000 /* Length of one line in document/index file */ /********************/ /* Global variables */ /********************/ /* Tagset information */ /*--------------------*/ char Tagset[MAX_TAGSET][MAX_TAG_STRING]; /* Tagset to annotate or extract */ /* This should not include attribute information */ /* For example, for , */ /* only "NAMEX" will be the tag string */ int Tagset_N; /* Number of Tagset information */ /* Document */ /*----------*/ unsigned char Document[MAX_DOC_LEN]; /* Storage for document */ struct s_docno { /* Document information from index_file */ char s[MAX_DOCNO_STRING]; /* Docno string */ long offset; /* Offset of the information in index_file */ int mark; /* If processed 1, unprocessed 0 */ } Docno[MAX_DOCNO]; /* element is refferd by ID */ int Docno_N; /* Number of document information */ /* Tag information for each document */ /*-----------------------------------*/ struct s_tag_info { /* Tag information */ int start; /* start offset in the document */ int end; /* end offset in the document */ char start_tag[MAX_TAG_STRING]; /* start tag string */ char end_tag[MAX_TAG_STRING]; /* end tag string */ } Tag_info[MAX_TAG_INFO]; /* This data should be the order of start */ int Tag_info_N; /* Number of Tag_info */ /* File */ /*-------*/ char Index_filename[MAX_FILENAME]; /* Index filename */ char Doc_filename[MAX_FILENAME]; /* Document filename */ FILE *Dfd; /* File descriptor for document file */ FILE *Ifd; /* File descriptor for index file */ int Dline; /* line number for document file */ /* Task */ /*------*/ int Task; /* Task */ /* 0: extraction */ /* 1: annotation */ /************************/ /* Function definitions */ /************************/ int main(); void read_arg(); void Usage(); void Error(); void init(); void read_index(); void extraction(); void annotation(); int read_document(); int find_docno(); int exist_tagset(); int tag_pair(); void read_tag_info(); void check_doc(); unsigned char *get_string(); int get_tagstring(); void Debug(); extern int strncmp(); extern int atoi(); extern long strtol(); extern int fprintf(); extern int fclose(); extern int fflush(); extern int fputc(); extern int fseek(); /********/ /* main */ /********/ int main(argc,argv) int argc; char *argv; { read_arg(argc,argv); init(); read_index(); if(Task==0){ extraction(); }else{ annotation(); check_doc(); } return(1); } /*****************************************/ /* Read arguments */ /* arguments must be */ /* {-e|-a} index_filename doc_filename */ /*****************************************/ void read_arg(argc,argv) int argc; char *argv[]; { if(argc!=4){ Usage("Wrong number of arguments (%d)!!\n", argc); } if(strcmp(argv[1],"-e")==0){ Task = 0; }else if(strcmp(argv[1],"-a")==0){ Task = 1; }else{ Usage("Specify the task\n"); } strcpy(Index_filename,argv[2]); strcpy(Doc_filename,argv[3]); } /***************************/ /* Print usage information */ /***************************/ void Usage(s) char *s; { fprintf(stderr,s); fprintf(stderr,"Usage: tea {-a|-e} index_file doc_file\n"); fprintf(stderr," Annotate tag to documents or extract tag from documents.\n"); fprintf(stderr," See README file for more detail. \n"); fprintf(stderr," \n"); fprintf(stderr,"Option: \n"); fprintf(stderr," a : Annotation mode \n"); fprintf(stderr," e : Extraction mode \n"); exit(0); } /********************************/ /* Print error message and exit */ /********************************/ void Error(s,arg1,arg2,arg3,arg4,arg5,arg6,arg7,arg8) char *s, *arg1, *arg2, *arg3, *arg4, *arg5, *arg6, *arg7, *arg8; { fprintf(stderr,s,arg1,arg2,arg3,arg4,arg5,arg6,arg7,arg8); fprintf(stderr,"Sometime, index_file or output_file is helpful for\n"); fprintf(stderr,"finding the bug\n"); exit(0); } /*************************/ /* Global initialization */ /*************************/ void init() { if((Dfd=fopen(Doc_filename,"r"))==NULL){ Error("Can't open document file (%s)\n",Doc_filename); } Dline = 0; } /*******************/ /* Read index file */ /*******************/ void read_index() { int line; unsigned char buff[MAX_LINE]; int current_docno; if((Ifd=fopen(Index_filename,"r"))==NULL){ Error("Can't open index file (%s)\n",Index_filename); } Tagset_N = 0; Docno_N = 0; current_docno = -1; for(line=1;fgets(buff,MAX_LINE,Ifd)!=NULL;line++){ /* Comment */ /*---------*/ if(buff[0]=='#' || strlen(buff) < 3){ continue; /* TAGSET */ /*--------*/ }else if(strncmp(buff,"TAGSET ",7)==0){ get_string(Tagset[Tagset_N++],buff+7); /* DOCNO */ /*-------*/ }else if(strncmp(buff,"DOCNO ",6)==0 || strncmp(buff,"DOCID ",6)==0){ if(Task == 0){ Error("DOCNO defined in extraction task (index_file line=%d)\n",line); } get_string(Docno[Docno_N].s,buff+6); Docno[Docno_N].offset = ftell(Ifd); Docno[Docno_N].mark = 0; current_docno = Docno_N; Docno_N++; /* TAG INFORMATION */ /*-----------------*/ }else if(strncmp(buff,"@ ",2)==0){ if(current_docno == -1){ Error("Don't specify docno before tag information (%d)\n",line); } /* Other keyword line (ERROR) */ /*----------------------------*/ }else{ Error("Unknown keyword in index file (%d)\n",line); } } fclose(Ifd); } /*******************/ /* Extraction MAIN */ /*******************/ void extraction() { int offset, len; int i; int start, end; unsigned char start_tag[MAX_TAG_STRING], end_tag[MAX_TAG_STRING]; unsigned char word[MAX_WORD_STRING], *p; unsigned char docno[MAX_DOCNO_STRING]; if((Ifd=fopen(Index_filename,"a"))==NULL){ Error("Can't open index file (%s)\n",Index_filename); } while(read_document(docno)>=0){ fprintf(Ifd,"DOCNO %s\n",docno); fflush(Ifd); len = strlen(Document); offset = 0; for(i=0;i\n",docno); } /* Find a new start tag (Error) */ } else if(Document[i]=='<' && Document[i-1]!='\\'){ Error("Unexpected start tag in <%s>\n",docno); /* OTHERS */ } else { if(Document[i]>0x80 && Document[i+1]>0x80){ offset++; *p++ = Document[i++]; *p++ = Document[i++]; } else { *p++ = Document[i++]; } } } /* We found the end tag */ /*----------------------*/ *p = '\0'; end = offset; fprintf(Ifd,"@ %d %d %s %s %s\n",start,end,start_tag,end_tag,word); fflush(Ifd); /* Find unexpected end tag */ } else if(Document[i]=='<' && Document[i+1]=='/' && exist_tagset(Document+i+2)==1){ Error("Unexpected end tag in <%s>\n",docno); /* OTHERS */ } else if(Document[i]>0x80 && Document[i+1]>0x80){ offset++; i+=2; } else { i++; } } } fclose(Ifd); } void annotation() { unsigned char docno[MAX_DOCNO_STRING]; int id; int offset, i; int len; int tag_id; if((Ifd=fopen(Index_filename,"r"))==NULL){ Error("Can't open index file (%s)\n",Index_filename); } /* While there is document to annotate */ /*-------------------------------------*/ while((id=read_document(docno))>=0){ /* Check and mark the document ID */ /*--------------------------------*/ if(Docno[id].mark==1){ Error("Document appeared more than once (%s)\n",Docno[id].s); } Docno[id].mark=1; /* Read tag information from index file */ /*--------------------------------------*/ read_tag_info(id); /* Create tagged document */ /*------------------------*/ len = strlen(Document); for(offset=0,i=0;i=0;tag_id--){ if(Tag_info[tag_id].end==offset){ fprintf(stdout,Tag_info[tag_id].end_tag); } } } } } } /*****************************************************************/ /* read_document(docno) */ /* In extraction task, read next document from document file. */ /* In annotation task, read next document which matches to one */ /* of the docno in Docno[].s. */ /* The function returns document ID, if it finds a document, */ /* otherwise returns 0. Set document Number into docno. */ /*****************************************************************/ int read_document(docno) unsigned char *docno; { unsigned char buff[MAX_LINE]; unsigned char *p; unsigned char *ret; int i, j; int id; id = 0; AGAIN: p = Document; while((ret=fgets(buff,MAX_LINE,Dfd))!=NULL){ Dline++; if(strncmp(buff,"",5)==0){ strcpy(p,buff); p += strlen(buff); break; } } if(ret==NULL){ return(-1); } while((ret=fgets(buff,MAX_LINE,Dfd))!=NULL){ Dline++; /* Read Document number */ /*----------------------*/ if(strncmp(buff,"",7)==0 || strncmp(buff,"",7)==0){ for(i=7;isspace(buff[i]);i++); if(buff[i]=='<' || buff[i]=='\0'){ Error("No document number in document file (%d)\n",Dline); } for(j=0;!isspace(buff[i]) && buff[i]!='<' && buff[i]!='\0';){ docno[j++]=buff[i++]; } docno[j]='\0'; if(Task==1 && (id=find_docno(docno))==-1){ goto AGAIN; } } /* Copy buff to Document */ /*-----------------------*/ strcpy(p,buff); p += strlen(buff); /* End of document */ /*-----------------*/ if(strncmp(buff,"",6)==0){ break; } } if(ret==NULL){ return(-1); } return(id); } /*************************************/ /* find_docno(docno) */ /* if there is docno in Docno list, */ /* return id, otherwise -1. */ /*************************************/ int find_docno(docno) unsigned char *docno; { int i; for(i=0;i'. */ /*******************************************/ int exist_tagset(tag) unsigned char *tag; { int i; int len; for(i=0;i')){ return(1); } } return(0); } /***************************************/ /* tag_pair(start_tag,end_tag) */ /* If start_tag and end_tag is legal */ /* pair, return 1, otherwise 0. */ /* Both of them should be surrounded */ /* by '<' and '>'. */ /***************************************/ int tag_pair(start_tag0,end_tag0) unsigned char *start_tag0, *end_tag0; { unsigned char start_tag[MAX_TAG_STRING]; unsigned char end_tag[MAX_TAG_STRING]; unsigned char *t, *s; for(s=start_tag0+1, t=start_tag; *s != '\0' && *s != '>' && !isspace(*s);s++,t++){ *t = *s; } *t = '\0'; for(s=end_tag0+2, t=end_tag; *s != '\0' && *s != '>' && !isspace(*s);s++,t++){ *t = *s; } *t = '\0'; if(strcmp(start_tag,end_tag)==0){ return(1); } else { return(0); } } /************************************************/ /* Read tag information for document of (id) */ /* from index file and store them into Tag_info */ /************************************************/ void read_tag_info(id) int id; { unsigned char buff[MAX_LINE], *p; struct s_tag_info tag_info; int i, j; Tag_info_N = 0; fseek(Ifd,Docno[id].offset,0); while(fgets(buff,MAX_LINE,Ifd)!=NULL){ if(buff[0]!='@'){ break; } tag_info.start = (int)strtol(buff+1,&p,10); tag_info.end = (int)strtol(p,&p,10); if(tag_info.start>=tag_info.end){ fprintf(stderr,"Invalid tag information (end starts before start)\n"); continue; } for(;isspace(*p);p++); for(i=0;*p!='>';p++,i++){ tag_info.start_tag[i] = *p; } tag_info.start_tag[i++]=*p++; tag_info.start_tag[i]='\0'; for(;isspace(*p);p++); for(i=0;*p!='>';p++,i++){ tag_info.end_tag[i] = *p; } tag_info.end_tag[i++]=*p++; tag_info.end_tag[i]='\0'; /* Store in the order of start, but if there are tags starting */ /* the same position, the tag with larger end comes first */ /*-------------------------------------------------------------*/ for(j=Tag_info_N;j>0;j--){ if(tag_info.start>Tag_info[j-1].start || (tag_info.start==Tag_info[j-1].start && tag_info.end' && i=MAX_TAG_STRING){ Error("Tag name is too long\n"); } *t++='>'; *t='\0'; return(i+1); } void Debug(s,arg1,arg2,arg3,arg4,arg5,arg6,arg7,arg8) char *s, *arg1, *arg2, *arg3, *arg4, *arg5, *arg6, *arg7, *arg8; { if(DEBUG==1){ fprintf(stderr,"# "); fprintf(stderr,s,arg1,arg2,arg3,arg4,arg5,arg6,arg7,arg8); } }  1, answered,, Summary-line: 28-Oct eriguchi@lit.rd.nttdata.c #training data & scorer Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id EAA10332 for ; Wed, 28 Oct 1998 04:15:33 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id EAA27904 for ; Wed, 28 Oct 1998 04:15:30 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id SAA14584 for ; Wed, 28 Oct 1998 18:15:29 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id SAA08577 for ; Wed, 28 Oct 1998 18:15:28 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id SAA14868 for ; Wed, 28 Oct 1998 18:15:27 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id SAA21167 for ; Wed, 28 Oct 1998 18:15:26 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA13362; Wed, 28 Oct 98 18:11:44 JST Date: Wed, 28 Oct 98 18:11:44 JST From: Yoshio Eriguchi Message-Id: <9810280911.AA13362@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Tue, 27 Oct 1998 22:49:23 -0500 (EST) <199810280349.WAA17154@nonki.cs.nyu.edu> Subject: training data & scorer Content-Type: text Content-Length: 42092 *** EOOH *** Date: Wed, 28 Oct 98 18:11:44 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Tue, 27 Oct 1998 22:49:23 -0500 (EST) <199810280349.WAA17154@nonki.cs.nyu.edu> Subject: training data & scorer Content-Type: text Content-Length: 42092 江里口です。 >とりあえず定義を出す事を考えていましたが、そうですね、 >皆予備試験に使えるかどうか分りませんが、出した方がいいのは >確かです。明日時間があったらやってみます。 ごめんなさい。以前のトレーニングデータの見直しはできませんでした。 さきに、dry run のほうをやったので。。。。 >予備試験のデータはどうですか? 江里口さんのデータをひとつに >まとめてから比較しますよね? 新しい定義の・だとか他いくつか >違っていると思われる部分が前にいただいたのにはありました。 一つにまとめたデータを送ります。 で、問題が発生しました。 関根さんのインデックスファイルから、keysファイルを作ろうとすると、 % tea -a index_file text_file > keys とやると、 Document appearend more than once() Sometime, index_file or output_file is helpful for finding the bug とでてきてしまい、1記事だけタグ付けして途中で終ってしまいます。 ちょっと、このあと用事があるのでここで今日はギブアップです。 >スコアラは公開しています。来週頭を目標に新しいバージョンを公開します。 >新しいのはオプショナルをちゃんと扱えます。 これは、私がとり忘れていました。すみません。 ># 家からです。もうすぐ寝ます。夏時間が終った所で時差惚けで眠いです。。 日本では味わえない感覚ですね。 -- Eriguchi -------------------------------------- TAGSET ORGANIZATION TAGSET PERSON TAGSET LOCATION TAGSET ARTIFACT TAGSET DATE TAGSET TIME TAGSET MONEY TAGSET PERCENT TAGSET OPTIONAL DOCNO @ 12 16 96年度 @ 18 23 2―3万円 @ 27 30 大蔵省 @ 33 36 大蔵省 @ 37 39 十日 @ 40 46 一九九六年度 @ 84 90 二万―三万円 @ 97 100 二千円 @ 114 121 九五年度予算案 @ 207 210 文部省 @ 270 274 九五年度 @ 278 283 二十六万円 @ 290 295 二万九千円 @ 338 342 九五年度 @ 347 356 四十一万一千六百円 @ 358 367 四十四万七千六百円 @ 396 400 九四年度 @ 407 412 二十三万円 @ 414 417 三万円 @ 424 429 二万七千円 @ 431 434 二千円 DOCNO @ 3 5 参院 @ 5 7 愛知 @ 18 20 村山 @ 34 36 参院 @ 36 38 愛知 @ 45 48 十一日 @ 51 53 即日 @ 62 66 午後七時 @ 73 76 十時半 DOCNO @ 30 32 村山 @ 41 45 村山内閣 @ 65 67 十日 @ 67 69 午後 @ 70 74 秋田県庁 @ 79 83 村山富市 @ 86 92 大河原太一郎 @ 92 93 農 @ 95 99 浜本万三 @ 99 100 労 @ 102 106 野中広務 @ 106 108 自治 @ 219 222 秋田県 @ 229 237 新多角的貿易交渉 @ 238 248 ウルグアイ・ラウンド @ 426 431 二十一世紀 @ 567 569 野中 @ 569 571 自治 @ 594 596 昨年 @ 597 606 ミニマム・アクセス @ 607 613 最低輸入義務 @ 646 648 国会 @ 673 675 細川 @ 699 702 自民党 @ 703 706 社会党 @ 729 734 東南アジア DOCNO @ 13 15 連合 @ 34 36 山岸 @ 41 44 山岸章 @ 44 46 連合 @ 124 129 芦田甚之助 @ 136 138 連合 @ 161 163 山岸 @ 185 187 山岸 @ 190 192 芦田 @ 208 212 昨年十月 @ 213 215 山岸 @ 243 245 昨年 @ 251 255 後藤森重 @ 256 259 自治労 @ 263 265 連合 @ 284 288 鷲尾悦也 @ 289 293 鉄鋼労連 @ 298 303 連合事務局 @ 317 319 山岸 @ 331 334 旧同盟 @ 340 342 芦田 @ 342 348 ゼンセン同盟 @ 352 355 旧総評 @ 356 359 自治労 @ 360 363 日教組 @ 372 374 芦田 @ 384 386 山岸 @ 387 389 芦田 @ 390 392 鷲尾 @ 466 468 山岸 @ 518 521 全電通 @ 531 533 五月 @ 555 557 連合 @ 585 587 山岸 @ 622 626 六月下旬 @ 627 629 国会 @ 671 672 自 @ 672 673 社 @ 682 684 連合 @ 701 707 社民リベラル @ 717 719 三日 @ 720 723 社会党 @ 763 765 山岸 @ 765 767 連合 @ 812 818 六、七千億円 @ 822 824 連合 @ 830 832 本部 @ 833 838 三十五億円 @ 839 844 地方連合会 @ 845 849 八十億円 @ 873 875 連合 @ 896 898 山岸 @ 939 942 新生党 @ 943 946 社会党 @ 969 972 自治労 @ 985 987 山岸 @ 993 995 連合 @ 1023 1025 山岸 @ 1034 1037 全電通 @ 1039 1046 旧三公社五現業 @ 1054 1057 公労協 @ 1066 1069 公労協 @ 1073 1075 国会 @ 1123 1125 山岸 @ 1143 1145 芦田 @ 1159 1165 ゼンセン同盟 @ 1193 1197 山田精吾 @ 1199 1203 ゼンセン @ 1222 1224 連合 @ 1234 1236 総評 @ 1254 1256 同盟 @ 1275 1277 芦田 @ 1283 1285 連合 @ 1301 1303 山岸 @ 1382 1384 山岸 @ 1408 1410 芦田 @ 1447 1451 新・新党 @ 1458 1460 芦田 @ 1466 1468 昨年 @ 1472 1474 連合 @ 1493 1495 連合 @ 1519 1521 社会 @ 1522 1524 民社 @ 1551 1554 自動車 @ 1555 1557 電力 @ 1559 1561 昨年 @ 1567 1570 民社党 @ 1589 1593 小沢一郎 @ 1594 1597 新生党 @ 1621 1624 旧総評 @ 1630 1632 全逓 @ 1633 1636 全電通 @ 1637 1653 金属労協(IMF・JC)グループ @ 1661 1664 社会党 @ 1675 1678 自治労 @ 1679 1682 日教組 @ 1705 1707 連合 @ 1708 1711 民社党 @ 1716 1719 旧同盟 @ 1720 1723 自動車 @ 1724 1726 鉄鋼 @ 1727 1729 電機 @ 1736 1740 金属労協 @ 1747 1750 旧総評 @ 1757 1760 旧同盟 @ 1761 1763 JC @ 1781 1783 連合 @ 1784 1787 社会党 @ 1808 1811 民社党 @ 1817 1820 旧連立 @ 1823 1827 新・新党 @ 1840 1842 村山 @ 1851 1854 自治労 @ 1855 1858 日教組 @ 1869 1871 山岸 @ 1876 1882 社民リベラル @ 1896 1898 連合 @ 1900 1904 新・新党 @ 1921 1923 芦田 @ 1924 1926 連合 @ 1927 1929 村山 DOCNO @ 3 4 米 @ 38 44 ニューヨーク @ 44 46 9日 @ 46 48 時事 @ 62 64 米国 @ 72 75 四九% @ 123 124 米 @ 135 145 デル・コンピューター @ 146 148 九日 @ 172 174 米国 @ 251 254 五八% @ 263 264 半 @ 271 273 デル DOCNO @ 3 6 米議会 @ 14 17 WTO @ 34 40 ロサンゼルス @ 40 43 10日 @ 43 47 児玉平生 @ 48 50 日本 @ 51 53 米国 @ 54 57 カナダ @ 58 62 欧州連合 @ 63 65 EU @ 83 85 十日 @ 85 87 午前 @ 88 90 日本 @ 92 95 十一日 @ 95 97 未明 @ 100 106 ロサンゼルス @ 118 121 十一日 @ 159 161 十日 @ 161 163 午前 @ 167 175 関税貿易一般協定 @ 176 179 ガット @ 186 190 来年一月 @ 197 203 世界貿易機構 @ 204 207 WTO @ 223 228 WTO協定 @ 240 245 WTO協定 @ 270 273 米議会 @ 313 320 通商法三〇一条 @ 321 334 不公正貿易慣行への制裁条項 @ 393 395 十日 @ 395 397 午後 @ 402 405 WTO @ 423 426 十一日 @ 426 428 午前 @ 433 436 WTO @ 459 462 WTO DOCNO @ 3 4 米 @ 4 5 朝 @ 26 30 ベルリン @ 32 36 ベルリン @ 36 39 10日 @ 39 43 岸本卓也 @ 44 55 朝鮮民主主義人民共和国 @ 56 59 北朝鮮 @ 73 75 米国 @ 76 79 北朝鮮 @ 86 88 十日 @ 90 94 ベルリン @ 104 107 北朝鮮 @ 163 166 十二日 @ 173 176 十三日 @ 202 206 午前十時 @ 207 209 日本 @ 212 216 午後五時 @ 219 230 旧東独駐在北朝鮮大使館 @ 237 240 北朝鮮 @ 242 245 金正宇 @ 246 253 対外経済委員会 @ 258 259 米 @ 261 270 ゲーリー・セーモア @ 270 278 国務省拡散問題課 @ 294 308 ベルリン駐在北朝鮮利益代表部 @ 309 312 ドイツ @ 343 345 米国 @ 352 355 北朝鮮 DOCNO @ 9 12 伊藤公 @ 24 31 いとう・いさお @ 40 45 1935年 @ 45 48 宮城県 @ 60 63 66年 @ 64 73 (財)日本体育協会 @ 76 78 広報 @ 81 85 国際部門 @ 107 110 91年 @ 135 143 オリンピックの本 DOCNO @ 9 13 松平康隆 @ 15 25 日本バレーボール協会 @ 30 40 まつだいら・やすたか @ 41 51 日本バレーボール協会 @ 54 59 1930年 @ 59 62 東京都 @ 66 68 慶大 @ 69 73 日本鋼管 @ 84 87 全日本 @ 95 100 ミュンヘン @ 111 115 国際連盟 @ 119 130 日本オリンピック委員会 @ 133 139 選手強化本部 @ 141 153 広島アジア大会日本選手団 DOCNO @ 3 6 ローマ @ 9 14 クロアチア @ 17 20 ローマ @ 22 31 ヨハネ・パウロ2世 @ 32 35 10日 @ 35 36 夕 @ 37 39 日本 @ 41 44 11日 @ 44 46 未明 @ 52 57 クロアチア @ 60 64 ザグレブ @ 70 73 ローマ @ 76 80 旧ユーゴ @ 92 95 11日 @ 107 110 ローマ @ 116 128 ボスニア・ヘルツェゴビナ @ 129 133 サラエボ @ 166 168 国連 @ 181 187 ウィーン支局 DOCNO @ 3 5 台湾 @ 10 12 中国 @ 13 14 米 @ 44 46 北京 @ 46 49 10日 @ 49 54 網谷利一郎 @ 55 57 米国 @ 66 68 台湾 @ 84 86 中国 @ 86 89 外務省 @ 90 93 劉華秋 @ 96 98 十日 @ 99 101 ロイ @ 102 104 中国 @ 104 106 米国 @ 112 114 中国 @ 131 133 台湾 @ 158 165 対中最恵国待遇 @ 166 169 MFN @ 178 179 米 @ 179 180 中 @ 192 197 クリントン @ 197 198 米 @ 203 204 中 @ 216 221 新華社通信 @ 226 227 劉 @ 231 233 米国 @ 243 245 中国 @ 253 255 中国 @ 259 261 台湾 @ 272 279 上海コミュニケ @ 299 300 米 @ 304 306 台湾 @ 310 312 中国 @ 329 331 台湾 @ 337 339 米国 @ 342 343 米 @ 349 350 台 @ 435 442 一九九二年九月 @ 443 445 米国 @ 446 452 F16戦闘機 @ 453 455 台湾 @ 476 478 中国 @ 496 500 ブラウン @ 500 501 米 @ 501 503 商務 @ 509 511 北京 @ 512 515 江沢民 @ 531 533 台湾 @ 539 541 中国 @ 555 557 中国 @ 563 571 関税貿易一般協定 @ 572 575 ガット @ 583 585 米国 @ 595 600 クリントン @ 601 602 中 @ 603 606 天安門 @ 636 638 中国 @ 645 647 米国 DOCNO @ 11 15 50万円 @ 25 32 サッポロビール @ 33 40 サッポロビール @ 51 52 仏 @ 52 57 フラパン社 @ 76 80 50万円 @ 90 100 フランソワ・ラブレー @ 112 117 フラパン社 @ 167 171 バカラ社 @ 193 196 40% @ 217 220 26日 @ 222 227 来月31日 @ 239 254 東京都渋谷区恵比寿4の20の1 @ 255 265 サッポロビール(株) @ 266 274 ワイン洋酒事業部 @ 276 289 フラパン ラブレー バカラ DOCNO @ 3 5 米国 @ 30 31 日 @ 31 32 米 @ 40 46 ロサンゼルス @ 46 49 10日 @ 49 53 福本容子 @ 54 55 日 @ 55 56 米 @ 85 86 米 @ 169 171 十日 @ 213 215 日本 @ 227 228 米 @ 231 233 月末 @ 257 259 日本 @ 288 289 米 @ 313 314 米 @ 324 327 通産省 @ 348 352 河野洋平 @ 356 357 外 @ 360 361 米 @ 363 367 二十六日 @ 414 416 月末 DOCNO @ 7 13 日本テレコム @ 21 23 大阪 @ 25 27 先週 @ 28 34 日本テレコム @ 39 41 週初 @ 43 46 NTT @ 47 53 日本電信電話 @ 55 58 DDI @ 59 63 第二電電 @ 87 93 日本テレコム @ 168 170 今週 @ 187 189 東証 @ 196 203 1万9900円 @ 205 211 2万500円 DOCNO @ 15 17 河童 @ 65 70 米米クラブ @ 71 81 カールスモーキー石井 @ 83 87 石井竜也 @ 96 98 今冬 @ 106 108 河童 @ 109 112 かっぱ @ 204 208 今年三月 @ 209 211 石井 @ 244 246 河童 @ 248 252 四十年前 @ 344 349 一九九一年 @ 350 359 CBS・ソニー出版 @ 360 369 現ソニーマガジンズ @ 380 384 柴田哲孝 @ 396 404 KAPPA―河童 @ 406 408 茨城 @ 499 501 米国 @ 546 559 ディレクターズ・カンパニー @ 701 704 雄二郎 @ 707 709 太一 @ 725 727 雄太 @ 789 791 石井 @ 822 826 河井真也 @ 867 870 八月末 @ 875 877 柴田 @ 915 917 柴田 @ 967 969 河井 @ 991 993 河井 @ 995 997 柴田 @ 1046 1048 河井 @ 1074 1078 昨年九月 @ 1083 1085 柴田 @ 1097 1101 今年一月 @ 1113 1115 八月 @ 1199 1201 石井 @ 1375 1377 柴田 @ 1419 1421 河井 @ 1449 1451 柴田 @ 1517 1520 川崎浩 DOCNO @ 28 32 安西英明 @ 1225 1231 日本野鳥の会 DOCNO @ 11 14 トルコ @ 23 28 武本金太朗 @ 120 123 1/2 @ 156 159 1/2 DOCNO @ 10 13 JFL @ 21 34 ジャパンフットボールリーグ @ 35 38 JFL @ 44 47 10日 @ 48 57 岡山県営陸上競技場 @ 59 62 PJM @ 74 78 川崎製鉄 DOCNO @ 14 16 関東 @ 26 28 関東 @ 45 48 10日 @ 49 51 東京 @ 52 60 代々木第二体育館 @ 62 64 拓大 @ 73 76 筑波大 @ 81 83 専大 @ 92 94 中大 @ 99 102 日体大 @ 111 113 法大 @ 118 120 日大 @ 129 131 早大 DOCNO @ 10 19 ピン・セルラーワン @ 28 32 小林浩美 @ 37 38 米 @ 49 58 ピン・セルラーワン @ 62 64 9日 @ 65 71 ポートランド @ 72 87 コロンビアエッジウオーターCC @ 145 147 翌日 @ 168 175 バル・スキナー @ 176 178 米国 @ 195 199 小林浩美 @ 215 217 AP DOCNO @ 23 26 武蔵丸 @ 27 30 若ノ花 @ 44 47 十一日 @ 48 50 東京 @ 51 56 両国国技館 @ 74 77 武蔵丸 @ 78 81 若ノ花 @ 94 97 武蔵丸 @ 98 101 名古屋 @ 112 114 五日 @ 115 120 横綱審議委 @ 193 196 若ノ花 @ 282 285 貴ノ花 @ 347 350 貴ノ浪 @ 397 400 武双山 @ 424 427 舞の海 @ 428 431 浜ノ島 @ 432 434 日大 @ 451 455 天野久樹 @ 458 461 貴ノ花 @ 462 465 武蔵丸 @ 472 474 十日 @ 475 477 今年 @ 484 487 貴ノ花 @ 489 492 名古屋 @ 502 505 武蔵丸 @ 507 512 毎日新聞社 @ 533 538 両国国技館 @ 594 597 国技館 DOCNO @ 5 7 関西 @ 21 23 関西 @ 35 38 10日 @ 39 41 日生 @ 45 48 大院大 @ 50 53 大院大 @ 58 61 大商大 @ 64 67 神院大 @ 69 72 神院大 @ 77 80 大経大 DOCNO @ 10 12 西武 @ 15 19 ダイエー @ 20 22 西武 @ 34 39 福岡ドーム @ 40 42 西武 @ 50 52 西武 @ 67 71 ダイエー @ 88 90 工藤 @ 108 111 石井丈 @ 128 131 若田部 @ 162 164 西武 @ 165 169 ダイエー @ 178 180 西武 @ 184 186 鈴木 @ 202 204 安部 @ 218 220 伊東 @ 235 236 辻 @ 274 278 ダイエー @ 290 292 工藤 @ 294 298 ダイエー @ 302 306 ダイエー @ 324 326 西武 @ 327 328 森 @ 395 399 ダイエー @ 419 421 西武 @ 489 491 根本 @ 526 528 秋山 @ 530 532 西武 DOCNO @ 28 34 アンサーJr @ 63 65 9日 @ 66 75 エルクハートレーク @ 76 85 米ウィスコンシン州 @ 98 100 今季 @ 106 118 アル・アンサー・ジュニア @ 119 121 米国 @ 122 132 ペンスキー・イルモア @ 182 188 UPIS時事 DOCNO @ 87 91 中嶋儀一 @ 98 100 東京 @ 101 103 山谷 @ 149 151 山谷 @ 175 177 中嶋 @ 194 196 山谷 @ 235 238 山友会 @ 240 246 台東区清川二 @ 249 251 中嶋 @ 334 336 中嶋 @ 463 466 山友会 @ 525 527 中嶋 @ 651 654 二千円 @ 741 743 中嶋 @ 746 749 山友会 @ 754 756 山谷 @ 760 765 山里相談室 @ 773 776 四年前 @ 858 860 日本 @ 954 956 中嶋 @ 971 973 日本 @ 983 987 ジャパン @ 992 995 アジア @ 1042 1044 中嶋 @ 1064 1072 聖フランシスコ会 @ 1077 1082 山里相談室 @ 1140 1143 十年前 @ 1153 1155 山谷 @ 1393 1399 NGO取材班 @ 1400 1405 斉藤希史子 DOCNO @ 31 33 日本 @ 41 46 毎日新聞社 @ 47 50 NHK @ 63 65 十日 @ 66 68 東京 @ 69 72 内幸町 @ 73 79 イイノホール @ 122 126 伊藤京子 @ 127 131 畑中良輔 @ 164 167 十三日 @ 167 172 午前十一時 @ 214 218 長島剛子 @ 219 223 国立音大 @ 229 233 山口安子 @ 234 238 東京音大 @ 244 249 日下部祐子 @ 250 256 京都市立芸大 @ 262 266 山本香代 @ 267 271 国立音大 @ 277 281 上田雅美 @ 282 289 エリザベト音大 @ 295 299 松下悦子 @ 300 306 同志社女子大 @ 308 312 西由起子 @ 313 317 東京芸大 @ 323 326 森麻季 @ 331 335 栗林朋子 @ 340 344 中島豊子 @ 345 349 東京音大 @ 355 359 村沢健一 @ 360 364 東京芸大 @ 367 371 中村弘人 @ 375 380 久住庄一郎 @ 388 392 石川誠二 @ 393 398 武蔵野音大 @ 404 408 井上幸一 @ 409 413 東京芸大 @ 419 422 青戸知 @ 427 431 成瀬当正 @ 432 436 東京音大 @ 442 446 小森輝彦 @ 447 451 東京芸大 @ 457 461 浦野智行 @ 464 468 藤村匡人 @ 469 473 大阪音大 @ 479 482 晴雅彦 @ 487 491 佐藤泰弘 @ 492 496 東京芸大 DOCNO @ 8 12 点字毎日 @ 27 32 毎日新聞社 @ 40 44 点字毎日 @ 56 63 ニフティサーブ @ 66 72 PC―VAN @ 83 87 点字毎日 @ 88 99 1922(大正11)年 @ 154 158 点字毎日 @ 328 334 PC―VAN @ 337 344 ニフティサーブ @ 347 350 16日 @ 370 374 点字毎日 @ 388 391 50円 @ 403 408 毎日新聞社 DOCNO @ 3 8 JR東日本 @ 33 41 24万5000円 @ 51 59 1億2000万円 @ 67 72 JR東日本 @ 138 140 十日 @ 181 188 二十四万五千円 @ 193 199 一億二千万円 @ 210 214 鉄道の日 @ 249 253 五百万円 @ 301 306 JR東日本 @ 307 315 一九九一年三月末 @ 342 351 乗車券管理センター @ 352 357 東京都港区 @ 361 363 国鉄 @ 453 456 一万円 @ 500 504 百二十円 @ 505 509 百四十円 @ 588 591 営業部 @ 651 655 鉄道の日 @ 657 662 十月十四日 @ 664 666 当日 @ 671 674 運輸省 @ 740 746 鉄道局業務課 DOCNO @ 5 7 中国 @ 15 20 100万円 @ 26 30 東京入管 @ 35 42 東京入国管理局 @ 77 80 百万円 @ 90 97 警視庁捜査三課 @ 98 101 池袋署 @ 102 104 十日 @ 105 111 浦和市領家三 @ 116 120 警備五課 @ 123 127 神田崇成 @ 151 153 神田 @ 157 161 五月下旬 @ 170 174 第二庁舎 @ 175 183 東京都北区西が丘 @ 199 201 中国 @ 227 231 二十九日 @ 232 235 浦和市 @ 262 265 百万円 @ 278 280 中国 @ 284 290 五月二十三日 @ 291 297 出入国管理法 @ 347 352 六月十三日 @ 384 387 百万円 @ 402 404 七月 @ 405 408 池袋署 @ 427 429 神田 @ 449 451 神田 @ 515 517 中国 @ 548 556 法務省入国管理局 @ 557 561 小林域泰 @ 561 564 総務課 DOCNO @ 3 5 関東 @ 43 46 十一日 @ 46 50 午前零時 @ 51 55 伊豆諸島 @ 56 59 八丈島 @ 85 86 朝 @ 88 91 八丈島 @ 97 99 午後 @ 101 105 房総半島 @ 114 116 関東 @ 134 137 気象庁 @ 221 223 関東 @ 228 232 伊豆半島 @ 233 236 十一日 @ 236 237 夕 DOCNO @ 18 22 河島英五 @ 28 33 日曜くらぶ @ 59 64 一九六二年 @ 87 91 堀江謙一 @ 119 124 石原裕次郎 @ 130 139 太平洋ひとりぼっち @ 151 153 堀江 @ 185 187 堀江 @ 205 211 マルコポーロ @ 212 217 コロンブス @ 354 356 堀江 @ 454 457 生駒山 DOCNO @ 22 26 藤田宜永 @ 32 37 日曜くらぶ @ 1510 1512 次週 @ 1515 1520 小池真理子 DOCNO @ 8 11 NZ便 @ 12 14 未明 @ 18 24 関西国際空港 @ 34 36 大阪 @ 38 48 ニュージーランド航空 @ 49 53 日本航空 @ 60 63 97便 @ 64 66 十日 @ 67 73 オークランド @ 80 86 関西国際空港 @ 97 104 午後十一時十分 @ 119 125 オークランド @ 127 130 98便 @ 145 148 十一日 @ 148 152 午前一時 @ 167 169 翌日 @ 169 171 未明 @ 185 189 午後九時 @ 202 206 大阪空港 @ 211 213 翌朝 DOCNO @ 20 23 野辺山 @ 28 33 長谷川哲夫 @ 35 40 日曜くらぶ @ 43 47 21世紀 @ 72 75 八ケ岳 @ 82 95 国立天文台野辺山電波天文台 @ 144 150 九月二十三日 @ 151 155 秋分の日 @ 164 172 野辺山電波天文台 @ 184 186 昨年 @ 294 298 東京大学 @ 318 320 今年 @ 433 443 野辺山宇宙電波観測所 @ 513 518 二十一世紀 @ 538 540 日本 @ 574 577 野辺山 @ 808 813 一九九六年 @ 998 1000 チリ @ 1001 1005 アンデス @ 1008 1011 ハワイ @ 1012 1019 マウナケア山頂 @ 1061 1066 二十一世紀 @ 1081 1083 日本 @ 1099 1102 野辺山 @ 1137 1146 東大天文学センター @ 1152 1155 野辺山 @ 1173 1176 天文台 DOCNO @ 21 23 滋賀 @ 25 27 大阪 @ 29 31 十日 @ 31 38 午後五時十五分 @ 41 52 滋賀県蒲生郡日野町北脇 @ 53 59 国道307号 @ 65 77 滋賀県警防犯部機動警察隊 @ 145 147 八時 @ 154 160 警察隊駐車場 @ 240 246 福井県武生市 DOCNO @ 4 8 Jリーグ @ 27 32 望月三起也 @ 34 39 日曜くらぶ @ 91 93 日本 @ 101 104 USA @ 132 137 ヨーロッパ @ 204 208 一二〇% @ 223 228 ヨーロッパ @ 237 241 アメリカ @ 244 256 ローズボウル・スタジアム @ 478 482 Jリーグ DOCNO @ 11 20 会津のおばあちゃん @ 22 26 磐越西線 @ 27 32 会津若松駅 @ 34 39 日曜くらぶ @ 47 50 鶴ケ城 @ 53 56 白虎隊 @ 65 69 会津若松 @ 96 105 会津のおばあちゃん @ 117 124 伯養軒若松支店 @ 129 133 石垣孔三 @ 307 309 会津 @ 448 450 会津 @ 496 502 10年ほど前 @ 543 551 おばあちゃん弁当 @ 579 584 1030円 DOCNO @ 9 17 ドナルド・キーン @ 19 26 コロンビア大学 @ 33 38 日曜くらぶ @ 41 49 ドナルド・キーン @ 50 57 コロンビア大学 @ 62 64 日本 @ 68 73 1922年 @ 73 79 ニューヨーク @ 86 91 コロンビア @ 92 97 ハーバード @ 98 104 ケンブリッジ @ 114 117 53年 @ 117 119 京大 @ 122 128 日本文学大賞 @ 129 133 菊池寛賞 @ 156 158 日本 @ 189 193 3分の1 @ 194 196 米国 @ 201 203 日本 DOCNO @ 13 20 アイジンバンク @ 21 25 入江貴久 @ 29 34 日曜くらぶ @ 46 53 アイジンバンク @ 96 106 腎(じん)アイバンク @ 112 116 腎バンク @ 117 122 アイバンク @ 195 201 アイ腎バンク @ 220 227 神奈川県大和市 DOCNO @ 19 23 椎葉祐之 @ 27 32 日曜くらぶ @ 44 47 琵琶湖 @ 190 196 大阪市住吉区  1,, Summary-line: 28-Oct eriguchi@lit.rd.nttdata. #DRY run, the first comparison Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id JAA11903 for ; Wed, 28 Oct 1998 09:54:35 -0500 (EST) Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id JAA00162 for ; Wed, 28 Oct 1998 09:54:33 -0500 (EST) Received: (from sekine@localhost) by noreen.cs.nyu.edu (8.9.1/8.9.1) id JAA15852; Wed, 28 Oct 1998 09:53:58 -0500 (EST) Date: Wed, 28 Oct 1998 09:53:58 -0500 (EST) From: Satoshi Sekine Message-Id: <199810281453.JAA15852@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp CC: sekine@cs.nyu.edu In-reply-to: Satoshi Sekine's message of Tue, 27 Oct 1998 22:49:23 -0500 (EST) <199810280349.WAA17154@nonki.cs.nyu.edu> Subject: DRY run, the first comparison Content-Type: text Content-Length: 2964 *** EOOH *** Date: Wed, 28 Oct 1998 09:53:58 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp CC: sekine@cs.nyu.edu In-reply-to: Satoshi Sekine's message of Tue, 27 Oct 1998 22:49:23 -0500 (EST) <199810280349.WAA17154@nonki.cs.nyu.edu> Subject: DRY run, the first comparison Content-Type: text Content-Length: 2964 江里口さんの(YE04)と僕の(SS05)を比較した最初の結果です。 diffの結果およびコメントは次のメイルで送ります。 江里口さんの送っていただいたデータ(YE03)中、940911057の記事の一部を 江里口さんが削除してしまっている疑いがあります。オフセットが ある時点を境にずれています。多分本文2行目あたりの 「フラパン ラブレー バカラ」を削除していると思います。 それを訂正したのがYE04です。タグはまったく一緒でしたので、 この修正は問題ないと思っています。 結果ですが、一致度は非常に低いです。 (本来の試験と同じようになるように、システム側のOPTIONALは除いています) -- SS05を正解、YE04をシステムとした場合----------------- * * * SUMMARY SCORES * * * -----------------------------+--------+-------------+------------- GLD SYS | COR | MIS OVG | REC PRE -----------------------------+--------+-------------+------------- ORGANIZATION 224 240 | 204 | 20 36 | 91 85 PERSON 170 172 | 170 | 0 2 | 100 98 LOCATION 195 195 | 184 | 11 11 | 94 94 ARTIFACT 42 36 | 32 | 10 4 | 76 88 DATE 112 108 | 105 | 7 3 | 93 97 TIME 23 25 | 23 | 0 2 | 100 92 MONEY 33 33 | 33 | 0 0 | 100 100 PERCENT 9 8 | 8 | 1 0 | 88 100 OPTIONAL 0 0 | 0 | 0 0 | - - ? 0 0 | 0 | 0 0 | - - -----------------------------+--------+-------------+------------- ALL SLOTS 808 817 | 759 | 49 58 | 93 92 F-MEASURES 92.50 -- YE04を正解、SS05をシステムとした場合----------------- * * * SUMMARY SCORES * * * -----------------------------+--------+-------------+------------- GLD SYS | COR | MIS OVG | REC PRE -----------------------------+--------+-------------+------------- ORGANIZATION 246 215 | 204 | 42 11 | 82 94 PERSON 172 170 | 170 | 2 0 | 98 100 LOCATION 199 194 | 184 | 15 10 | 92 94 ARTIFACT 36 40 | 32 | 4 8 | 88 80 DATE 108 112 | 105 | 3 7 | 97 93 TIME 25 23 | 23 | 2 0 | 92 100 MONEY 33 33 | 33 | 0 0 | 100 100 PERCENT 8 9 | 8 | 0 1 | 100 88 OPTIONAL 0 0 | 0 | 0 0 | - - ? 0 0 | 0 | 0 0 | - - -----------------------------+--------+-------------+------------- ALL SLOTS 827 796 | 759 | 68 37 | 91 95 F-MEASURES 92.96  1, filed, forwarded,, Summary-line: 28-Oct eriguchi@lit.rd.nttdata. #training data & scorer Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id LAA12450 for ; Wed, 28 Oct 1998 11:21:33 -0500 (EST) Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id LAA01399 for ; Wed, 28 Oct 1998 11:21:32 -0500 (EST) Received: (from sekine@localhost) by noreen.cs.nyu.edu (8.9.1/8.9.1) id LAA15902; Wed, 28 Oct 1998 11:21:17 -0500 (EST) Date: Wed, 28 Oct 1998 11:21:17 -0500 (EST) From: Satoshi Sekine Message-Id: <199810281621.LAA15902@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp CC: sekine@cs.nyu.edu In-reply-to: Satoshi Sekine's message of Tue, 27 Oct 1998 22:49:23 -0500 (EST) <199810280349.WAA17154@nonki.cs.nyu.edu> Subject: training data & scorer Content-Type: text Content-Length: 16515 *** EOOH *** Date: Wed, 28 Oct 1998 11:21:17 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp CC: sekine@cs.nyu.edu In-reply-to: Satoshi Sekine's message of Tue, 27 Oct 1998 22:49:23 -0500 (EST) <199810280349.WAA17154@nonki.cs.nyu.edu> Subject: training data & scorer Content-Type: text Content-Length: 16515 > 江里口 < 関根 41c41 < @ 36 41 愛知選挙区 --- > @ 36 38 愛知 特に例はありませんが、選挙区は行政による地名とは別の地名であると 判断しました。 42a43 > @ 51 53 即日 「当日と同じにしましょう」というのは「当」は参照表現なので 抽出しないという事だと思い、抽出しませんでした。 新たな定義にもそのように書いてしまいました。 58a60,61 > @ 229 237 新多角的貿易交渉 > @ 238 248 ウルグアイ・ラウンド これはOPTIONALかとも思ったのですが、「交渉」は行為と判断して しまいました。確かにARTIFACTがいいと思います。 62a66,67 > @ 597 606 ミニマム・アクセス > @ 607 613 最低輸入義務 これは法律、条約の名前というより、その中の抽象的な条件の話 だと思います。 76d80 < @ 181 182 半 「半ば」の「半」です。「半数」等は抽出する事にしたため 抽出するのだと思います。 87c91 < @ 298 300 連合 --- > @ 298 303 連合事務局 はい、これはその通りだと思います。 105c109 < @ 627 629 国会 --- > @ 627 629 国会 「国会会期末」の「国会」 これはイベントだという判断でしょうか? んー、たしかに「通常国会」はイベントという事になっていますし、 イベントという判断が正しいようですね。 108a113 > @ 701 707 社民リベラル これは組織名ではなく、形容詞ではないでしょうか? 111c116,117 < @ 762 770 「山岸連合」時代 --- > @ 763 765 山岸 > @ 765 767 連合 時間のニックネームも取る事になったため、上記の時代まで 含めて時間として抽出しました。 113a120 > @ 830 832 本部 おっと「総務部」の例がでましたね。 現実的な解としてOPTIONALにしましょうか? 114a122 > @ 839 844 地方連合会 これは私も悩みましたが、解としてはOPTIONALにしませんか? 124a133 > @ 1039 1046 旧三公社五現業 これは3.1.Gのグループ名に相当し、抽出しないと思います。 138c147 < @ 1301 1305 山岸時代 --- > @ 1301 1303 山岸 前と同じく時代の表現ですね。 140a150 > @ 1447 1451 新・新党 これは、具体的な対象が来まっている訳ではなくて、 新たにできる(だろう)党を指しているので、形容詞的な表現であり 固有表現ではないと思います。 143c153 < @ 1472 1478 連合政治方針 --- > @ 1472 1474 連合 「昨年決めた「連合政治方針」」とありますので、法案と同等と 判断しました。 145c155,158 < @ 1519 1526 社会、民社両党 --- > @ 1519 1521 社会 > @ 1522 1524 民社 「党」があるので、3.1.Cの「衆参議院」同様分割すべきでないと 判断しました。確かに間に「、」があるのでいやらしいですが。 > @ 1551 1554 自動車 > @ 1555 1557 電力 これは悩みました。 どうしましょう。産業の種類を言っているようでもあるし、 団体を指しているようでもあります(そのような団体は存在するので しょうし)。解としてはOPTIONALでどうでしょう? 153,154c166 < @ 1637 1641 金属労協 < @ 1642 1648 IMF・JC --- > @ 1637 1653 金属労協(IMF・JC)グループ これは、3.1.Eの入れ子の定義から分割するのだと思います。 160a173,175 > @ 1720 1723 自動車 > @ 1724 1726 鉄鋼 > @ 1727 1729 電機 上記同様OPTIONALでどうでしょう? 168a184 > @ 1823 1827 新・新党 172a189 > @ 1876 1882 社民リベラル 173a191 > @ 1900 1904 新・新党 175c193 すでに書きました。 < @ 1923 1926 新連合 --- > @ 1924 1926 連合 3.1.Jから「新」も入れるのだと思います。 192,193c210 < @ 3 4 米 < @ 4 6 議会 --- > @ 3 6 米議会 # 態度保留 212,213c229,230 < @ 167 175 関税貿易一般協定 < @ 176 179 ガット --- > @ 167 175 関税貿易一般協定 > @ 176 179 ガット 文脈と表記から、組織名か条約名か悩みましたので、OPTIONALとしました。 文脈では組織的な感じが強いのは認めます。 219,220c236 < @ 270 271 米 < @ 271 273 議会 --- > @ 270 273 米議会 # 態度保留 249,250c265 < @ 219 222 旧東独 < @ 224 230 北朝鮮大使館 --- > @ 219 230 旧東独駐在北朝鮮大使館 257,258c272 < @ 294 298 ベルリン < @ 300 308 北朝鮮利益代表部 --- > @ 294 308 ベルリン駐在北朝鮮利益代表部 # 態度保留 268a283,284 > @ 76 78 広報 > @ 81 85 国際部門 「総務部」の例ですね。OPTIONALでいいですか? 280c296 < @ 84 87 全日本 --- > @ 84 87 全日本 「バレーボール全日本チーム」の略なので組織名でいいのでは? 283a300 > @ 133 139 選手強化本部 「総務部」の例ですね。僕だけがORGとしていますが、OPTIONALでいいですね? 286c303 < @ 3 8 ローマ法王 --- > @ 3 6 ローマ 288c305 < @ 17 22 ローマ法王 --- > @ 17 20 ローマ 297c314 < @ 70 75 ローマ法王 --- > @ 70 73 ローマ 300c317 < @ 107 112 ローマ法王 --- > @ 107 110 ローマ 野口さんとの議論を読んだのですが、結局OPTIONALとする事で落ち着いたと 僕は理解しました。(今一つ明確ではありませんが) 新しい定義にもそのように書きました。 323c340,341 < @ 159 160 中 --- > @ 158 165 対中最恵国待遇 > @ 166 169 MFN なる程。これは条約なのでしょうか。。。 ちょっと、調べる必要がありそうですね。 # 態度保留 335c353 < @ 272 279 上海コミュニケ --- > @ 272 279 上海コミュニケ これは条約でいいと思いますが。 370,381c388,398 < @ 67 80 フラパン ラブレー バカラ < @ 91 95 50万円 < @ 105 115 フランソワ・ラブレー < @ 127 132 フラパン社 < @ 182 186 バカラ社 < @ 208 211 40% < @ 232 235 26日 < @ 237 242 来月31日 < @ 254 269 東京都渋谷区恵比寿4の20の1 < @ 270 280 サッポロビール(株) < @ 281 289 ワイン洋酒事業部 < @ 291 304 フラパン ラブレー バカラ --- > @ 76 80 50万円 > @ 90 100 フランソワ・ラブレー > @ 112 117 フラパン社 > @ 167 171 バカラ社 > @ 193 196 40% > @ 217 220 26日 > @ 222 227 来月31日 > @ 239 254 東京都渋谷区恵比寿4の20の1 > @ 255 265 サッポロビール(株) > @ 266 274 ワイン洋酒事業部 > @ 276 289 フラパン ラブレー バカラ 以上オフセットのバグです。 406c423 < @ 7 13 日本テレコム --- > @ 7 13 日本テレコム 文脈的にはARTIFACTである株を指しているかもしれないと判断したので OPTIONALにしました。 409c426 < @ 28 35 日本テレコム株 --- > @ 28 34 日本テレコム 415c432 < @ 87 94 日本テレコム株 --- > @ 87 93 日本テレコム 「株」はARTIFACTではないでしょうか? 434c451 < @ 361 369 ソニーマガジンズ --- > @ 360 369 現ソニーマガジンズ たしかに、「現」は付けるべきですね。 457d473 < @ 1244 1246 前日 私がロケ地に行った日の前日という事で特定できると思いDATEにしました。 464,465d479 < @ 182 183 夏 < @ 203 204 夏 「特別に暑かった「夏」」、「「夏」の間、山や高原で、、」 の2つの文脈では(特に最初のは)、「今年の夏」を意味していると思い DATEにしました。 472a487,489 > @ 10 13 JFL > @ 21 34 ジャパンフットボールリーグ > @ 35 38 JFL これはえらく悩みました。最終的にはイベントと判断しましたが、 OPTIONALが無難かもしれません。 477a495,496 > @ 14 16 関東 > @ 26 28 関東 これは私のミスです。付けるべきです。 490,491c509 < @ 10 12 ピン < @ 13 19 セルラーワン --- > @ 10 19 ピン・セルラーワン 494,495c512 < @ 49 51 ピン < @ 52 58 セルラーワン --- > @ 49 58 ピン・セルラーワン これは、それぞれ組織名だと思います。 語源にまで遡っているかもしれませんので、OPTIONALでもいいです。 LPGAツアーを検索しましたが、今年はこの名前のゲームはないようです。 505d521 < @ 12 15 きょう これはいいと思います。 515a532 > @ 115 120 横綱審議委 これは私のミスです。付けるべきです。 532d548 < @ 517 521 大優勝額 534d549 < @ 590 593 優勝額 非常に悩みました。 どうしましょう? 536a552,553 > @ 5 7 関西 > @ 21 23 関西 これは私のミスです。付けるべきです。 538c555 < @ 39 41 日生 --- > @ 39 41 日生 582c599 < @ 122 132 ペンスキー・イルモア --- > @ 122 132 ペンスキー・イルモア これは、詳しい人に聞きました。 チーム名と判断して良いようなので、ORGANIZATIONでいいです。 585d601 < @ 20 22 山谷 600a617 > @ 754 756 山谷 おたがい一つづつ付け忘れましたね。 676c693 < @ 370 374 点字毎日 --- > @ 370 374 点字毎日 メニューの所でうね。僕もOPTIONALに賛成します。 696a714 > @ 588 591 営業部 「総務部」ですね。OPTIONALではどうでしょう? 698a717 > @ 664 666 当日 参照と判断しました。 732a752 > @ 561 564 総務課 「総務部」じゃなくて「総務課」ですね。OPTIONALではどうでしょう? 750a771 > @ 28 33 日曜くらぶ これも判断に悩みました。OPTIONALに賛成します。 752d772 < @ 75 78 太平洋 これはいいと思います。 763a784,785 > @ 32 37 日曜くらぶ > @ 1510 1512 次週 「次週」は付けるべきですね。 767,768c789,790 < @ 12 14 未明 < @ 18 24 関西国際空港 --- > @ 12 14 未明 > @ 18 24 関西国際空港 未明は私のミスです。 眠らないのは土地ではなくて組織だと思い、組織名にしました。 783c805,806 < @ 202 206 大阪空港 --- > @ 185 189 午後九時 > @ 202 206 大阪空港 午後九時は特定の日の午後九時ではなく、一般的な午後九時なので タグ付けませんでした。発着を制限されているのは土地ではなく 組織だと判断しました。この空港はOPTIONALでもいいですね。 786c809 < @ 20 23 野辺山 --- > @ 20 23 野辺山 これは作者が比喩的に書いてあると思い、OPTIONALにしました。 787a811 > @ 35 40 日曜くらぶ 799a824 > @ 574 577 野辺山 これは私のミスです。 802c827 < @ 1001 1006 アンデス山 --- > @ 1001 1005 アンデス 804c829 < @ 1012 1018 マウナケア山 --- > @ 1012 1019 マウナケア山頂 富士山で「富士」だけは取らないと思うので、「山」まで入れていいと 思います。「山頂」は難しいですね。概略的表現とも取れないし、 僕も悩みましたが、「山頂」まで入れて地名でしょうか。 807c832 < @ 1099 1102 野辺山 --- > @ 1099 1102 野辺山 これも作者が比喩的に書いてあると思い、OPTIONALにしました。 809a835 > @ 1173 1176 天文台 照応の使われ方ではないでしょうか? 818a845 > @ 154 160 警察隊駐車場 最初は僕もタグ付けたのですが、「総務部」同様後でやめました。 OPTIONALでいいでしょうか? 821c848 < @ 4 8 Jリーグ --- > @ 4 8 Jリーグ OPTIONALに賛成します。(僕もそうしていたと思ったんだけど) 822a850 > @ 34 39 日曜くらぶ 834a863 > @ 34 39 日曜くらぶ 842,844d870 < @ 417 421 梅干し玉 < @ 431 433 黄粉 < @ 434 437 きなこ これらは多分商品名だと思います。 ちなみに、「会津のおばあちゃん弁当は」 http://www.asahi-net.or.jp/~vn4t-nnmy/ekiben/obaachan.jpg に写真があります。 駄菓子屋の「長門屋」http://www.aizuya.com/nagatoya さんは「黄粉ねじり」というのを売っているようですが、 「黄粉」はありませんねぇ。。。 わお。会津若松菓子組合というホームページがありました。 http://spl.powernet.or.jp/~aizutono/kumiai/ 会津大学の学生のクラブがあるようなので、ここの人に聞いてみます。 851a878 > @ 33 38 日曜くらぶ 857c884,886 < @ 86 106 コロンビア、ハーバード、ケンブリッジ各大 --- > @ 86 91 コロンビア > @ 92 97 ハーバード > @ 98 104 ケンブリッジ これは、前にもありましたが、3.1.Cを参考にずべて継げるとしました。 866a896 > @ 13 20 アイジンバンク 867a898,903 > @ 29 34 日曜くらぶ > @ 46 53 アイジンバンク > @ 96 106 腎(じん)アイバンク > @ 112 116 腎バンク > @ 117 122 アイバンク > @ 195 201 アイ腎バンク うーーん、確かに。 「アイジンバンク」などは組織名に賛成ですが、その他のOPTIONALには 苦悩の跡がみられます。。。やっぱりOPTIONALかなぁ。 870a907 > @ 27 32 日曜くらぶ  1, filed,, Summary-line: 28-Oct eriguchi@lit.rd.nttdata. #MFN Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id LAA12559 for ; Wed, 28 Oct 1998 11:47:42 -0500 (EST) Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id LAA01695 for ; Wed, 28 Oct 1998 11:47:41 -0500 (EST) Received: (from sekine@localhost) by noreen.cs.nyu.edu (8.9.1/8.9.1) id LAA15914; Wed, 28 Oct 1998 11:47:37 -0500 (EST) Date: Wed, 28 Oct 1998 11:47:37 -0500 (EST) From: Satoshi Sekine Message-Id: <199810281647.LAA15914@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu Subject: MFN Content-Type: text Content-Length: 699 *** EOOH *** Date: Wed, 28 Oct 1998 11:47:37 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu Subject: MFN Content-Type: text Content-Length: 699 ---引用----------- 323c340,341 < @ 159 160 中 --- > @ 158 165 対中最恵国待遇 > @ 166 169 MFN なる程。これは条約なのでしょうか。。。 ちょっと、調べる必要がありそうですね。 # 態度保留 ------------------- ホワイトハウスのホームページにあるvertual Libraryで知らべた所、 MFNというのはmost-favored-nationの略でstatusであると言っています。 (したがって、MFNは最恵国待遇の部分だけですね) 法律として明文化されているかどうかは、ちょっと不明ですが、 statusという事で、Artifactではないと判断していいのではないでしょうか? 関根  1, filed,, Summary-line: 29-Oct eriguchi@lit.rd.nttdata.c #DRY run, the first comparison Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id GAA19435 for ; Thu, 29 Oct 1998 06:46:25 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id GAA15740 for ; Thu, 29 Oct 1998 06:46:21 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id UAA21122 for ; Thu, 29 Oct 1998 20:46:18 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id UAA21220 for ; Thu, 29 Oct 1998 20:46:17 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id UAA28155 for ; Thu, 29 Oct 1998 20:46:16 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id UAA04209 for ; Thu, 29 Oct 1998 20:46:15 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA19770; Thu, 29 Oct 98 20:42:31 JST Date: Thu, 29 Oct 98 20:42:31 JST From: Yoshio Eriguchi Message-Id: <9810291142.AA19770@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 28 Oct 1998 09:53:58 -0500 (EST) <199810281453.JAA15852@noreen.cs.nyu.edu> Subject: DRY run, the first comparison Content-Type: text Content-Length: 27433 *** EOOH *** Date: Thu, 29 Oct 98 20:42:31 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 28 Oct 1998 09:53:58 -0500 (EST) <199810281453.JAA15852@noreen.cs.nyu.edu> Subject: DRY run, the first comparison Content-Type: text Content-Length: 27433 江里口です。 >江里口さんの(YE04)と僕の(SS05)を比較した最初の結果です。 >diffの結果およびコメントは次のメイルで送ります。 > >江里口さんの送っていただいたデータ(YE03)中、940911057の記事の一部を >江里口さんが削除してしまっている疑いがあります。オフセットが >ある時点を境にずれています。多分本文2行目あたりの >「フラパン ラブレー バカラ」を削除していると思います。 >それを訂正したのがYE04です。タグはまったく一緒でしたので、 >この修正は問題ないと思っています。 すみませんでした。確かに「フラパン ラブレー バカラ」が消えていました。 >結果ですが、一致度は非常に低いです。 >(本来の試験と同じようになるように、システム側のOPTIONALは除いています) タグを付けながら、一致度は低いそうだとは予想していました。 難しいですね。 以下は、関根さんのコメントに対するコメントです。 指針を決める必要があるもの。 ◎総務部など単独出現の普通名詞の組織名(文脈で特定組織を指す場合) 私見:難しいのでOPTIONALにしましょうか。 ◎国名(地名)+組織名の扱い 米議会 旧東独駐在北朝鮮大使館 ベルリン駐在北朝鮮利益代表部 在ナイジェリア日本大使館 在韓米軍 韓国三星 独フォルクスワーゲン 私見:全部くっつける [理由]: 地名部分を含んだものが正式名称か、そうでないかを 判断するのは非常に難しいため。(特に外国の組織名) 国会、議会、大蔵省など、政府機関名に対しては、国名が あるほうが名称を見ただけで特定できるから。 ◎「、」が途中にはいる連続表現 社会、民社両党 コロンビア、ハーバード、ケンブリッジ各大 私見:3.1.Cの定義文の、分割すると違った意味になるには該当せず、 他に、分割する理由づけをされていないため。 ◎株 日本テレコム株 [株価]日本テレコム低迷続きそう NTTの株価 私見: 株は固有物名にしない [理由] 株式蘭の企業名は株を指すか、企業名を指すか人間にも判断できない ものがあるため、株は固有物名にしないという例外の定義を作る方が 混乱が少なくなる。 ◎サービス名 今回のデータでは直接なかったが、以前の議論が途中で消えている。 以前の議論でどちらになるかはっきりしていない。 定義を見る限りでは、固有物名と考えることもできるが、 例、あるいはある程度の説明がないと議論にあがった次のものを 皆が一様にサービス名、あるいは違うという判断をするとは思えない。 ・MMF ・ひかり123号 以下は、二人のタグの違いに対するコメントです。 ★印をつけたのは、関根さんのコメントとは違う見解を持つものです。 ※印は議論の必要があるものです。 △印をつけたのは、条件つきで関根さんのコメントに合意するものです。 ○印は関根さんのコメントに同意するものです。 #★と※の違いはあまり気にしないでください。 >< @ 36 41 愛知選挙区 >--- >> @ 36 38 愛知 > >特に例はありませんが、選挙区は行政による地名とは別の地名であると >判断しました。 ○ここは悩みました。 [3.1.3.C 概略的表現]から大阪と大阪圏との関係と判断しました。 選挙区の東京三区などのことを考えると、 愛知選挙区のほうがよいと思います。 >42a43 >> @ 51 53 即日 > >「当日と同じにしましょう」というのは「当」は参照表現なので >抽出しないという事だと思い、抽出しませんでした。 >新たな定義にもそのように書いてしまいました。 ○ご想像どおり、私の誤解でした。 >58a60,61 >> @ 229 237 新多角的貿易交渉 >> @ 238 248 ウルグアイ・ラウンド > >これはOPTIONALかとも思ったのですが、「交渉」は行為と判断して >しまいました。確かにARTIFACTがいいと思います。 ○この類は、悩みに悩みました。わたしもOPTIONALにしようかとも思いましたし。 しかしながら最終的に条約名と考えARTIFACTにしました。 関根さんも賛同してくれるようなので、ARTIFACTにしましょう。 >62a66,67 >> @ 597 606 ミニマム・アクセス >> @ 607 613 最低輸入義務 > >これは法律、条約の名前というより、その中の抽象的な条件の話 >だと思います。 △「最低輸入義務」という条項があるのかないのか私には判断できなかったの でOPTIONALにしました。そうい条項がないことがわかっているのであれば、タ グなしでいいです。 >76d80 >< @ 181 182 半 >「半ば」の「半」です。「半数」等は抽出する事にしたため >抽出するのだと思います。 ★「半数」での「半」の使い方とは、違うとおもいます。 「半ば」の意味は途中という意味だと思いますし。 私の考えでは、譲歩してもです。 >< @ 627 629 国会 >--- >> @ 627 629 国会 > >「国会会期末」の「国会」 >これはイベントだという判断でしょうか? >んー、たしかに「通常国会」はイベントという事になっていますし、 >イベントという判断が正しいようですね。 ○ここも悩みました。組織としての意味がありえなそうだったので OPTIONALに逃げました。 >108a113 >> @ 701 707 社民リベラル > >これは組織名ではなく、形容詞ではないでしょうか? ○はい、間違っていまいした。形容詞ではなく思想の名称だとは思いますが。 >111c116,117 >< @ 762 770 「山岸連合」時代 >--- >> @ 763 765 山岸 >> @ 765 767 連合 > >時間のニックネームも取る事になったため、上記の時代まで >含めて時間として抽出しました。 ※徳川時代は、江戸時代のニックネーム(?)と考えられますが、 「山岸連合」時代は違う気がします。いったいいつのことでしょう? 宿題ですね。 >113a120 >> @ 830 832 本部 > >おっと「総務部」の例がでましたね。 >現実的な解としてOPTIONALにしましょうか? ※ここは、痕跡を残すためにOPTIONALタグをつけました。 どちらに落ち着くかによってタグは変わると思います。 現実的な解としてOPTIONALもありだとは思います。 >114a122 >> @ 839 844 地方連合会 > >これは私も悩みましたが、解としてはOPTIONALにしませんか? ○私も悩んみました。OPTIONALでいいと思います。 >124a133 >> @ 1039 1046 旧三公社五現業 > >これは3.1.Gのグループ名に相当し、抽出しないと思います。 ○3.1.Gの定義と、例からそうだと思います。私のミスです。 #夏の収穫祭はなぜここに例として入っているのでしょうか? >138c147 >< @ 1301 1305 山岸時代 >--- >> @ 1301 1303 山岸 > >前と同じく時代の表現ですね。 ※宿題項目です。 >140a150 >> @ 1447 1451 新・新党 > >これは、具体的な対象が来まっている訳ではなくて、 >新たにできる(だろう)党を指しているので、形容詞的な表現であり >固有表現ではないと思います。 ★新進党が正式名称ときまるまで、しばらくの間組織名的な使われ方を された語です。いわば、ニックネームに相当するとおもうのですが。 したがって、ORGANIZATIONをつけるべき、あるいはOPTIONになると 思います。 >143c153 >< @ 1472 1478 連合政治方針 >--- >> @ 1472 1474 連合 > >「昨年決めた「連合政治方針」」とありますので、法案と同等と >判断しました。 ★これは、連合の活動方針のような気もして、法案と同等と考えるのは 抵抗があります。 >145c155,158 >< @ 1519 1526 社会、民社両党 >--- >> @ 1519 1521 社会 >> @ 1522 1524 民社 > >「党」があるので、3.1.Cの「衆参議院」同様分割すべきでないと >判断しました。確かに間に「、」があるのでいやらしいですが。 ※3.1.Cの「衆参議院」の考えと、間の「、」でどうするか考えました。 「社会(党)、民社(党の)両党」と考えることもできるとこじつけました。 ここも方針を協議する必要がありそうですね。 >> @ 1551 1554 自動車 >> @ 1555 1557 電力 > >これは悩みました。 >どうしましょう。産業の種類を言っているようでもあるし、 >団体を指しているようでもあります(そのような団体は存在するので >しょうし)。解としてはOPTIONALでどうでしょう? ★ここは、産業の種類を言っているわけではなく、自動車労連、電力労連の ことを確実に指しています。OPTIONALにしたい気もわかりますが。 OPTIONALを多用しすぎないためにも、ここはORGANIZATIONがよいと思います。 >153,154c166 >< @ 1637 1641 金属労協 >< @ 1642 1648 IMF・JC >--- >> @ 1637 1653 金属労協(IMF・JC)グループ > >これは、3.1.Eの入れ子の定義から分割するのだと思います。 ★逆に、3.1.Eの入れ子の定義から分割ではないと思います。 松下貿易(松貿)株式会社に相当します。 もし、「金属労協グループ」を「金属労協グループ」と するのであれば、はなしは別ですが。 また、分割する場合は、IMFJCに なります。 >160a173,175 >> @ 1720 1723 自動車 >> @ 1724 1726 鉄鋼 >> @ 1727 1729 電機 > >上記同様OPTIONALでどうでしょう? ★上記同様の理由で、ORGANIZATIONです。 >168a184 >> @ 1823 1827 新・新党 >172a189 >> @ 1876 1882 社民リベラル >173a191 >> @ 1900 1904 新・新党 >175c193 > >すでに書きました。 ★すでに書いたように、新・新党はORGANIZATIONまたはOPTION ○社民リベラルはタグなしでいいとおもいます。 >< @ 1923 1926 新連合 >--- >> @ 1924 1926 連合 > >3.1.Jから「新」も入れるのだと思います。 ○了解しました。 >192,193c210 >< @ 3 4 米 >< @ 4 6 議会 >--- >> @ 3 6 米議会 > ># 態度保留 ※宿題ということで。 >212,213c229,230 >< @ 167 175 関税貿易一般協定 >< @ 176 179 ガット >--- >> @ 167 175 関税貿易一般協定 >> @ 176 179 ガット > >文脈と表記から、組織名か条約名か悩みましたので、OPTIONALとしました。 >文脈では組織的な感じが強いのは認めます。 ★ガットは私が中学のときは国連の一組織だと習った記憶があります。 そして、この文では組織として使われています。 >219,220c236 >< @ 270 271 米 >< @ 271 273 議会 >--- >> @ 270 273 米議会 > ># 態度保留 ※了解。 >249,250c265 >< @ 219 222 旧東独 >< @ 224 230 北朝鮮大使館 >--- >> @ 219 230 旧東独駐在北朝鮮大使館 >257,258c272 >< @ 294 298 ベルリン >< @ 300 308 北朝鮮利益代表部 >--- >> @ 294 308 ベルリン駐在北朝鮮利益代表部 > ># 態度保留 ※了解。 >268a283,284 >> @ 76 78 広報 >> @ 81 85 国際部門 > >「総務部」の例ですね。OPTIONALでいいですか? ※この系統はOPTIONALにしますか。 >280c296 >< @ 84 87 全日本 >--- >> @ 84 87 全日本 > >「バレーボール全日本チーム」の略なので組織名でいいのでは? ★バレーボール全日本チームという名称はあるのですか? 全日本や、全日本チームは一般的な名詞(総務課)とにたような 名称かと判断しています。 >283a300 >> @ 133 139 選手強化本部 > >「総務部」の例ですね。僕だけがORGとしていますが、OPTIONALでいいですね? ※はい。 >286c303 >< @ 3 8 ローマ法王 >--- >> @ 3 6 ローマ >288c305 >< @ 17 22 ローマ法王 >--- >> @ 17 20 ローマ >297c314 >< @ 70 75 ローマ法王 >--- >> @ 70 73 ローマ >300c317 >< @ 107 112 ローマ法王 >--- >> @ 107 110 ローマ > >野口さんとの議論を読んだのですが、結局OPTIONALとする事で落ち着いたと >僕は理解しました。(今一つ明確ではありませんが) >新しい定義にもそのように書きました。 ○3つは、私の間違いです。ローマ法王です。 ★ただし、ローマ法王ヨハネ・パウロ2世だけは、 ローマ法王ヨハネ・パウロ2世 >323c340,341 >< @ 159 160 中 >--- >> @ 158 165 対中最恵国待遇 >> @ 166 169 MFN > >なる程。これは条約なのでしょうか。。。 >ちょっと、調べる必要がありそうですね。 ># 態度保留 ※条約というか、サービスとしてとらえていました。 サービスが、ARTIFACTかどうかが、定義からは分からなくなっています。 メイルを読み返すと、サービス名はARTIFACTになったような気がしています。 >335c353 >< @ 272 279 上海コミュニケ >--- >> @ 272 279 上海コミュニケ > >これは条約でいいと思いますが。 ○これは、上海コミュケという条約があるかどうか、自信がなかったので OPTIONALにしました。 >370,381c388,398 >< @ 67 80 フラパン ラブレー バカラ >< @ 91 95 50万円 >< @ 105 115 フランソワ・ラブレー >< @ 127 132 フラパン社 >< @ 182 186 バカラ社 >< @ 208 211 40% >< @ 232 235 26日 >< @ 237 242 来月31日 >< @ 254 269 東京都渋谷区恵比寿4の20の1 >< @ 270 280 サッポロビール(株) >< @ 281 289 ワイン洋酒事業部 >< @ 291 304 フラパン ラブレー バカラ >--- >> @ 76 80 50万円 >> @ 90 100 フランソワ・ラブレー >> @ 112 117 フラパン社 >> @ 167 171 バカラ社 >> @ 193 196 40% >> @ 217 220 26日 >> @ 222 227 来月31日 >> @ 239 254 東京都渋谷区恵比寿4の20の1 >> @ 255 265 サッポロビール(株) >> @ 266 274 ワイン洋酒事業部 >> @ 276 289 フラパン ラブレー バカラ > >以上オフセットのバグです。 ○ごめんなさい。 >406c423 >< @ 7 13 日本テレコム >--- >> @ 7 13 日本テレコム > >文脈的にはARTIFACTである株を指しているかもしれないと判断したので >OPTIONALにしました。 > >409c426 >< @ 28 35 日本テレコム株 >--- >> @ 28 34 日本テレコム >415c432 >< @ 87 94 日本テレコム株 >--- >> @ 87 93 日本テレコム > >「株」はARTIFACTではないでしょうか? ※株をARTIFACTと考えるかどうか迷ったあげく、ARTIFACTではないと判断し、 「日本テレコム」は全て組織名にしました。 株式蘭の、動向記事なんかを使う場合に問題になりそうですね。 どちらかはっきりとすべきですね。 >434c451 >< @ 361 369 ソニーマガジンズ >--- >> @ 360 369 現ソニーマガジンズ > >たしかに、「現」は付けるべきですね。 > >457d473 >< @ 1244 1246 前日 > >私がロケ地に行った日の前日という事で特定できると思いDATEにしました。 ★「私がロケ地にに行った日」がいつか特定の日とは判断したくなかったので、 つけませんでした。 もしその場合は、私がロケ地にに行った日になったりします? >464,465d479 >< @ 182 183 夏 >< @ 203 204 夏 > >「特別に暑かった「夏」」、「「夏」の間、山や高原で、、」 >の2つの文脈では(特に最初のは)、「今年の夏」を意味していると思い >DATEにしました。 ○「特別に扱った夏」は今年の夏と考えるほうが自然のようですね。 そうすると、次の「秋に向かっており」の「秋」もタグ付けすべきですね。 ★「夏の間」のほうは一般的な夏とも、今年の夏とも判断がつきかねます。 でしょうか? >472a487,489 >> @ 10 13 JFL >> @ 21 34 ジャパンフットボールリーグ >> @ 35 38 JFL > >これはえらく悩みました。最終的にはイベントと判断しましたが、 >OPTIONALが無難かもしれません。 ○わたしも悩んだ結果のOPTIONALです。 >477a495,496 >> @ 14 16 関東 >> @ 26 28 関東 > >これは私のミスです。付けるべきです。 > >490,491c509 >< @ 10 12 ピン >< @ 13 19 セルラーワン >--- >> @ 10 19 ピン・セルラーワン >494,495c512 >< @ 49 51 ピン >< @ 52 58 セルラーワン >--- >> @ 49 58 ピン・セルラーワン > >これは、それぞれ組織名だと思います。 >語源にまで遡っているかもしれませんので、OPTIONALでもいいです。 >LPGAツアーを検索しましたが、今年はこの名前のゲームはないようです。 △これは正直、分からなかったからです。 組織名だということがわかっているのであれば、ORGANIZATIONでよいと思います。 私にとっては語源まで遡ることがらですが、多くの人にとってはそうでないような 気もしますし。 >505d521 >< @ 12 15 きょう > >これはいいと思います。 ○私のミスです。 >515a532 >> @ 115 120 横綱審議委 > >これは私のミスです。付けるべきです。 > >532d548 >< @ 517 521 大優勝額 >534d549 >< @ 590 593 優勝額 > >非常に悩みました。 >どうしましょう? ※わたしは見落としていました。 悩ましいですね。ARTIFACTにしまようか。悩ましいですね。 >536a552,553 >> @ 5 7 関西 >> @ 21 23 関西 > >これは私のミスです。付けるべきです。 > >538c555 >< @ 39 41 日生 >--- >> @ 39 41 日生 ○これは私のミスです。 >582c599 >< @ 122 132 ペンスキー・イルモア >--- >> @ 122 132 ペンスキー・イルモア > >これは、詳しい人に聞きました。 >チーム名と判断して良いようなので、ORGANIZATIONでいいです。 ○はい >585d601 >< @ 20 22 山谷 >600a617 >> @ 754 756 山谷 > >おたがい一つづつ付け忘れましたね。 ○うーん、そのようですね。 >676c693 >< @ 370 374 点字毎日 >--- >> @ 370 374 点字毎日 > >メニューの所でうね。僕もOPTIONALに賛成します。 ○どうも。 >696a714 >> @ 588 591 営業部 > >「総務部」ですね。OPTIONALではどうでしょう? ※はい。 >698a717 >> @ 664 666 当日 > >参照と判断しました。 ○はい。当日、即日は誤解していました。 >732a752 >> @ 561 564 総務課 > >「総務部」じゃなくて「総務課」ですね。OPTIONALではどうでしょう? ※はい。 >750a771 >> @ 28 33 日曜くらぶ > >これも判断に悩みました。OPTIONALに賛成します。 ○そうしましょう。 >752d772 >< @ 75 78 太平洋 > >これはいいと思います。 ○はい。私のミスです。 >763a784,785 >> @ 32 37 日曜くらぶ >> @ 1510 1512 次週 > >「次週」は付けるべきですね。 ○はい。 >767,768c789,790 >< @ 12 14 未明 >< @ 18 24 関西国際空港 >--- >> @ 12 14 未明 >> @ 18 24 関西国際空港 > >未明は私のミスです。 >眠らないのは土地ではなくて組織だと思い、組織名にしました。 ★眠らない空港は、眠らない町新宿、とおなじ修辞技法だとおもい、 組織か場所か分からなくなったので、OPTIONALに逃げました。 >783c805,806 >< @ 202 206 大阪空港 >--- >> @ 185 189 午後九時 >> @ 202 206 大阪空港 > >午後九時は特定の日の午後九時ではなく、一般的な午後九時なので >タグ付けませんでした。発着を制限されているのは土地ではなく >組織だと判断しました。この空港はOPTIONALでもいいですね。 ○午後九時は私のミスです。 ○大阪空港も悩みました。OPTIONALですかね。 >786c809 >< @ 20 23 野辺山 >--- >> @ 20 23 野辺山 > >これは作者が比喩的に書いてあると思い、OPTIONALにしました。 ○解釈が難しい表現ですよね。OPTIONALにしましょう。 >787a811 >> @ 35 40 日曜くらぶ > >799a824 >> @ 574 577 野辺山 > >これは私のミスです。 > >802c827 >< @ 1001 1006 アンデス山 >--- >> @ 1001 1005 アンデス >804c829 >< @ 1012 1018 マウナケア山 >--- >> @ 1012 1019 マウナケア山頂 > >富士山で「富士」だけは取らないと思うので、「山」まで入れていいと >思います。「山頂」は難しいですね。概略的表現とも取れないし、 >僕も悩みましたが、「山頂」まで入れて地名でしょうか。 ★ここは悩みました。 アンデス山脈はありますが、アンデス山はないので、悩んだ結果が 山中を概略表現に相当すると考え、アンデス山中 にしました。「そうすると富士山中」のときどうするかも悩ましいですが。 ※マウナケア山頂の、概略的表現部分の判断は難しいです。 逃げ道はマウナケア山頂ですが、OPTIONALの 多様のしすぎのようで。。。。#癖になりそう。 >807c832 >< @ 1099 1102 野辺山 >--- >> @ 1099 1102 野辺山 > >これも作者が比喩的に書いてあると思い、OPTIONALにしました。 ○了解しました。 >809a835 >> @ 1173 1176 天文台 > >照応の使われ方ではないでしょうか? ※判断がむずかしいですが、多分、下位組織名の正式名称だとおもい ます。総務部と同じ類と思います。 >818a845 >> @ 154 160 警察隊駐車場 > >最初は僕もタグ付けたのですが、「総務部」同様後でやめました。 >OPTIONALでいいでしょうか? ※はい。 >821c848 >< @ 4 8 Jリーグ >--- >> @ 4 8 Jリーグ > >OPTIONALに賛成します。(僕もそうしていたと思ったんだけど) ○了解。 >822a850 >> @ 34 39 日曜くらぶ >834a863 >> @ 34 39 日曜くらぶ > >842,844d870 >< @ 417 421 梅干し玉 >< @ 431 433 黄粉 >< @ 434 437 きなこ > >これらは多分商品名だと思います。 ○そうですね。商品名としてよい気がしてきました。 >ちなみに、「会津のおばあちゃん弁当は」 >http://www.asahi-net.or.jp/~vn4t-nnmy/ekiben/obaachan.jpg >に写真があります。 > >駄菓子屋の「長門屋」http://www.aizuya.com/nagatoya >さんは「黄粉ねじり」というのを売っているようですが、 >「黄粉」はありませんねぇ。。。 > >わお。会津若松菓子組合というホームページがありました。 >http://spl.powernet.or.jp/~aizutono/kumiai/ > >会津大学の学生のクラブがあるようなので、ここの人に聞いてみます。 こんなところまで調べていらっしゃるとは。脱帽です。 >851a878 >> @ 33 38 日曜くらぶ >857c884,886 >< @ 86 106 コロンビア、ハーバード、ケンブリッジ各大 >--- >> @ 86 91 コロンビア >> @ 92 97 ハーバード >> @ 98 104 ケンブリッジ > >これは、前にもありましたが、3.1.Cを参考にずべて継げるとしました。 ※方針を決めましょう。 >866a896 >> @ 13 20 アイジンバンク >867a898,903 >> @ 29 34 日曜くらぶ >> @ 46 53 アイジンバンク >> @ 96 106 腎(じん)アイバンク >> @ 112 116 腎バンク >> @ 117 122 アイバンク >> @ 195 201 アイ腎バンク > >うーーん、確かに。 >「アイジンバンク」などは組織名に賛成ですが、その他のOPTIONALには >苦悩の跡がみられます。。。やっぱりOPTIONALかなぁ。 ○苦悩の跡を理解していただきありがとうございます。 >870a907 >> @ 27 32 日曜くらぶ >  1, filed,, Summary-line: 29-Oct eriguchi@lit.rd.nttdata.c #training data & scorer Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id GAA19440 for ; Thu, 29 Oct 1998 06:48:02 -0500 (EST) Received: from ms.nttdata.co.jp (ms1.nttdata.co.jp [163.135.193.232]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id GAA15749 for ; Thu, 29 Oct 1998 06:48:00 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id UAA12733 for ; Thu, 29 Oct 1998 20:47:59 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id UAA21324 for ; Thu, 29 Oct 1998 20:47:59 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id UAA28163 for ; Thu, 29 Oct 1998 20:47:58 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id UAA04219 for ; Thu, 29 Oct 1998 20:47:57 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA19784; Thu, 29 Oct 98 20:44:13 JST Date: Thu, 29 Oct 98 20:44:13 JST From: Yoshio Eriguchi Message-Id: <9810291144.AA19784@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 28 Oct 1998 08:23:52 -0500 (EST) <199810281323.IAA15764@noreen.cs.nyu.edu> Subject: training data & scorer Content-Type: text Content-Length: 673 *** EOOH *** Date: Thu, 29 Oct 98 20:44:13 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 28 Oct 1998 08:23:52 -0500 (EST) <199810281323.IAA15764@noreen.cs.nyu.edu> Subject: training data & scorer Content-Type: text Content-Length: 673 江里口です。 >来週頭に公開するteaの新しいバージョンでは治っているはずです。 > >実は、mai2sgmlに2つのバージョンがあって、かなり古いやつで >sgmlファイルを作ったら、記事番号はDOCIDになっています。 >これをいつかの段階で、MUCにならってDOCNOと変更したのでした。 ありがとうございます。 >それで、江里口さんのデータにもDOCNOの後に番号がないのですね。 そうです。昨日気がつきました。 ># 明日は大学に来ないので(メイルは見ますが、時間のかかる ># 内容の返事はできないと思います)、今日の次は金曜です。 はい。理解しました。 -- Eriguchi  1, filed,, Summary-line: 30-Oct eriguchi@lit.rd.nttdata.c # Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id UAA29914 for ; Thu, 29 Oct 1998 20:53:26 -0500 (EST) Received: from ms.nttdata.co.jp (ms1.nttdata.co.jp [163.135.193.232]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id UAA27625 for ; Thu, 29 Oct 1998 20:53:20 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id KAA20899 for ; Fri, 30 Oct 1998 10:53:17 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id KAA00073 for ; Fri, 30 Oct 1998 10:53:17 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id KAA02657 for ; Fri, 30 Oct 1998 10:53:16 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id KAA09097 for ; Fri, 30 Oct 1998 10:53:16 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA22683; Fri, 30 Oct 98 10:49:30 JST Date: Fri, 30 Oct 98 10:49:30 JST From: Yoshio Eriguchi Message-Id: <9810300149.AA22683@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Thu, 29 Oct 1998 17:01:19 -0500 (EST) <199810292201.RAA17663@nonki.cs.nyu.edu> Content-Type: text Content-Length: 13798 *** EOOH *** Date: Fri, 30 Oct 98 10:49:30 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Thu, 29 Oct 1998 17:01:19 -0500 (EST) <199810292201.RAA17663@nonki.cs.nyu.edu> Content-Type: text Content-Length: 13798 江里口です。 >まず、現在の定義を予備試験で使用すると宣言したため(宣言する必要性は >理解していただけまよね?)、定義に明かに矛盾する物は取りがたいです。 >それから、定義を予備試験前に書き直すという事も宣言した手前できません。 >定義から解釈して説明できるものは説明それが難しいものはOPTIONALにすると >いうのが唯一の解決策です。 はい、そうだと思います。 指針をきめる必要があるものは、今回のDry Runのためだけでなく、 本番にむけ決める必要があるとおもったものを列記したものです。 > > 指針を決める必要があるもの。 > > > > ◎総務部など単独出現の普通名詞の組織名(文脈で特定組織を指す場合) > > 私見:難しいのでOPTIONALにしましょうか。 > >はい。OPTIONALに賛成です。 それで、Dry Runは(これに関しては本番も?)いきましょう。 > > ◎国名(地名)+組織名の扱い > > 米議会 > > 旧東独駐在北朝鮮大使館 > > ベルリン駐在北朝鮮利益代表部 > > > > 在ナイジェリア日本大使館 > > 在韓米軍 > > 韓国三星 > > 独フォルクスワーゲン > > > > 私見:全部くっつける > > [理由]: > > 地名部分を含んだものが正式名称か、そうでないかを > > 判断するのは非常に難しいため。(特に外国の組織名) > > > > 国会、議会、大蔵省など、政府機関名に対しては、国名が > > あるほうが名称を見ただけで特定できるから。 > >これは定義3.1.3.Aに分割すると書いてあるのでその方針で行きたいと思います。 >もし判断が難しい場合にはOPTIONALにするという方向せいきましょう。 >「米議会」は分割でいいと思いますが、「旧東独逸。。」「ベルリン駐在。。」は >疑問だと思われるようでしたら、OPTIONALでいいです。時間があったら >調べてみます。 Dry Runに限っていえば、分割する方向はよいと思います。 本番にむけては、私は「旧東独逸。。」「ベルリン駐在。。」レベルの 話を調べるのはいやなので、現実的な定義を模索したいです。 「在ニューヨーク日本領事館」が正式名称でなければ、 全部分割してすっきりしたのですが。 >この部分は > > ◎「、」が途中にはいる連続表現 > > 社会、民社両党 > > コロンビア、ハーバード、ケンブリッジ各大 > > > > 私見:3.1.Cの定義文の、分割すると違った意味になるには該当せず、 > > 他に、分割する理由づけをされていないため。 > >説明にあるように、「社会、民社両党」を「社会(党)、民社(党の)両党」と >してしまうと、「衆参議院」も「衆(議院と)参(議院の両/各)議院」と説明できて >しまうため気持悪いです。でも確かに例にあるような「南北朝鮮」「中南米」 >「衆参議院」と違って慣用的でもないし、「、」もついているし、心情的には >分けたいと僕も思います。上記の江里口さんの私見を主張し分る事にしておいて >反対が出たらOPTIONALにしましょう。 わかりました。 > > ◎株 > > 日本テレコム株 > > [株価]日本テレコム低迷続きそう > > NTTの株価 > > > > 私見: 株は固有物名にしない > > [理由] > > 株式蘭の企業名は株を指すか、企業名を指すか人間にも判断できない > > ものがあるため、株は固有物名にしないという例外の定義を作る方が > > 混乱が少なくなる。 > >まず、これから例外を入れるのは「なし」です。 >確かに混乱する可能性はありますが、今の定義からだとARTIFACTになると思います。 今回の定義に関して、これから例外を入れるのは「なし」は賛成です。 >そうしておいて、後の議論に任せませんか? そうしましょう。 しかしながら、前回のメイルで指摘したように、 この記事での東証以外の、他の企業名が株かどうか分からなくなるため、 他の企業名はOPTIONALにすべきだと思います。 #おそらく、システムでこれらが株と判断できるものはないでしょうが。 #これを株として扱うと、学習を使うシステムは辛いでしょうね。 DOCNO 940911066 @ 7 13 日本テレコム @ 28 35 日本テレコム株 @ 43 46 NTT @ 47 53 日本電信電話 @ 55 58 DDI @ 59 63 第二電電 @ 87 94 日本テレコム株 > > ◎サービス名 > >あれ、本当にサービス名が消えていますね。 >今回のデータでもNZ便を、便名の省略としてARTIFACTとすべきか >悩みました。(今データを持っていないので、どうしたか覚えていませんが) > > > 今回のデータでは直接なかったが、以前の議論が途中で消えている。 > > 以前の議論でどちらになるかはっきりしていない。 > > 定義を見る限りでは、固有物名と考えることもできるが、 > > 例、あるいはある程度の説明がないと議論にあがった次のものを > > 皆が一様にサービス名、あるいは違うという判断をするとは思えない。 > > ・MMF > > ・ひかり123号 NT便はお互いARTIFACTとしていました。 > > >111c116,117 > > >< @ 762 770 「山岸連合」時代 > > >--- > > >> @ 763 765 山岸 > > >> @ 765 767 連合 > > >時間のニックネームも取る事になったため、上記の時代まで > > >含めて時間として抽出しました。 > > ※徳川時代は、江戸時代のニックネーム(?)と考えられますが、 > > 「山岸連合」時代は違う気がします。いったいいつのことでしょう? > > 宿題ですね。 > >山岸が連合の会長になってから辞めるまでではないのでしょうか? >そうであれば、開始も終了も特定できますから、江戸時代と変らない気がします。 > > >140a150 > > >> @ 1447 1451 新・新党 > > >これは、具体的な対象が来まっている訳ではなくて、 > > >新たにできる(だろう)党を指しているので、形容詞的な表現であり > > >固有表現ではないと思います。 > > ★新進党が正式名称ときまるまで、しばらくの間組織名的な使われ方を > > された語です。いわば、ニックネームに相当するとおもうのですが。 > > したがって、ORGANIZATIONをつけるべき、あるいはOPTIONになると > > 思います。 > >なる程。そうでしたっけ? >当時本にいなかったので記憶が薄かったようです。 >でも、中心人物は決っていたけれど(小沢、羽田、細川?)、参加者は >揺れていたのではなかったでしたっけ? 江里口さんの感覚に任せます。 毎日新聞をしらべました。 ご指摘のとおり、参加者は揺れているようです。 これはかなり特殊ケースなのでOPTIONALにしましょう。 > > >143c153 > > >< @ 1472 1478 連合政治方針 > > >--- > > >> @ 1472 1474 連合 > > >「昨年決めた「連合政治方針」」とありますので、法案と同等と > > >判断しました。 > > ★これは、連合の活動方針のような気もして、法案と同等と考えるのは > > 抵抗があります。 > >そうですね。組合系の人に聞いみましょうか? >ちゃんと決めて明文化しているような気もしますが。 多分、明文化されているとは思いますが、明文化かどうかという問題で 判断するんでしょうか? 本当は、「連合政治方針」だけ単独で考えた場合は、ARTIFACTでも構わない と思うのですが、これを入れることで、他の名称で悩むそうな予感がしたので 芽を摘みとっておこうという考えでした。 今回はARTIFACTにしましょう。 > > >153,154c166 > > >< @ 1637 1641 金属労協 > > >< @ 1642 1648 IMF・JC > > >--- > > >> @ 1637 1653 金属労協(IMF・JC)グループ > > >これは、3.1.Eの入れ子の定義から分割するのだと思います。 > > > > ★逆に、3.1.Eの入れ子の定義から分割ではないと思います。 > > 松下貿易(松貿)株式会社に相当します。 > > もし、「金属労協グループ」を「金属労協グループ」と > > するのであれば、はなしは別ですが。 > >全体で取ろうとすると3.1.Gが適応されそうです。 >(昔、ここに例として「三井グループ」いうようなのがあった記憶がありますが) この例が何故なくなったのかはさだかではありませんが、METでは 三井グループでした。 今回の定義でも、3.1.1でグループはとるとかいてあり、 「3.1.Gグループ名」は特定の対象をしめさないグループ名はとらない と書いてあるだけなので、金属労協グループにするものだと おもっていました。 わたしは、金属労協グループと思うのですが、定義と 見比べて、どちらが定義上の解釈として正しいかの判断は関根さん に委ねます。 >金属労協IMFJC)グループ >でいいと思います。 > > >457d473 > > >< @ 1244 1246 前日 > > > > > >私がロケ地に行った日の前日という事で特定できると思いDATEにしました。 > > > > ★「私がロケ地にに行った日」がいつか特定の日とは判断したくなかったので、 > > つけませんでした。 > >昔、議論しましたね。我々が知っている特定の日と、我々が知らないけれども >特定の日である事は知っている特定の日の違いというのを。 >3.2に相対的な表現(記事の日付を含む文脈に基点としての今日が明確である場合の「前日」) >は、抽出するとありますが、確かに「明確であるの意味が明確になっていませんね。 >相対表現の所は、繰り返しを主に禁止しているので、上記のような特定の日は >我々が実際に何月何日か知らないけれども、ある特定の日であると分る場合には >特定の日としてしまいませんか? ではそうしましょう。山岸連合時代もそうすればタグ付けするのが許せます。 > > >464,465d479 > > >< @ 182 183 夏 > > >< @ 203 204 夏 > > >「特別に暑かった「夏」」、「「夏」の間、山や高原で、、」 > > >の2つの文脈では(特に最初のは)、「今年の夏」を意味していると思い > > >DATEにしました。 > > ○「特別に扱った夏」は今年の夏と考えるほうが自然のようですね。 > > そうすると、次の「秋に向かっており」の「秋」もタグ付けすべきですね。 > >この秋は、特定の秋ではなくて、季節としての秋だと思いました。 「特別に暑かった夏ですが、今、季節は再び秋にむかっており....」 今年の夏が移りゆく秋だから特定できると思いましたが、 季節の秋ともとれますね。 ここは、最近多様しすぎのOPTIONALにしましょう。 > > >< @ 10 12 ピン > > >< @ 13 19 セルラーワン <中略> >ピンはゴルフクラブの会社、セルラーワンはセルラーホンの会社だと思います。 >でも、ちょっと語源的な感じもしますので、OPTIONALにしましょう。 はい。お任せします。 > > >532d548 > > >< @ 517 521 大優勝額 > > >534d549 > > >< @ 590 593 優勝額 > > > > > >非常に悩みました。 > > >どうしましょう? > > ※わたしは見落としていました。 > > 悩ましいですね。ARTIFACTにしまようか。悩ましいですね。 > >いいでしょうか? いいと思います。クラスじゃないのといわれると、むずかしいんですが。。。 > > >802c827 > > >< @ 1001 1006 アンデス山 > > >--- > > >> @ 1001 1005 アンデス > > >804c829 > > >< @ 1012 1018 マウナケア山 > > >--- > > >> @ 1012 1019 マウナケア山頂 > > >富士山で「富士」だけは取らないと思うので、「山」まで入れていいと > > >思います。「山頂」は難しいですね。概略的表現とも取れないし、 > > >僕も悩みましたが、「山頂」まで入れて地名でしょうか。 > > ★ここは悩みました。 > > アンデス山脈はありますが、アンデス山はないので、悩んだ結果が > > 山中を概略表現に相当すると考え、アンデス山中 > > にしました。「そうすると富士山中」のときどうするかも悩ましいですが。 > >アンデス山はないのですか? >アンデス地方はあるのでしょうか? >それとも、「アンデス山脈」の省略としての「アンデス」でしょうか? > > > ※マウナケア山頂の、概略的表現部分の判断は難しいです。 > > 逃げ道はマウナケア山頂ですが、OPTIONALの > > 多様のしすぎのようで。。。。#癖になりそう。 > >本当に。。(でも、ありがたいです。:-) >えっと、山頂も含めてLOCATIONでいいと思います。 私が所有している地図ではアンデス山はのっていません。 多分、この文はアンデス山脈のどこかが天文台の候補地だといっていると 思います。 > > >809a835 > > >> @ 1173 1176 天文台 > > >照応の使われ方ではないでしょうか? > > ※判断がむずかしいですが、多分、下位組織名の正式名称だとおもい > > ます。総務部と同じ類と思います。 > >「国天文台野辺山電波天文台」の事を指しているのではないのでしょうか? そうともとれます。でも、電話番号と一緒にのせる組織名は そのままで組織名、あるいは(参照ではなくて)略称である可能性が 高いと思います。その辺が想像のいきを出ないので、OPTIONALにしませんか? #これも、ORGANIZATIONとして出してくるシステムはないと思いますが。 >本当にWWWはありがたいんだか迷惑なんだか。。。 調べられるということも、辛いときがありますね。 -- Eriguchi  1, answered,, Summary-line: 30-Oct eriguchi@lit.rd.nttdata.c #NEtag.txt Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id DAA04992 for ; Fri, 30 Oct 1998 03:53:09 -0500 (EST) Received: from ms.nttdata.co.jp (ms1.nttdata.co.jp [163.135.193.232]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id DAA01056 for ; Fri, 30 Oct 1998 03:53:02 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id RAA19542 for ; Fri, 30 Oct 1998 17:53:01 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id RAA05704 for ; Fri, 30 Oct 1998 17:53:00 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id RAA08441 for ; Fri, 30 Oct 1998 17:52:59 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id RAA13219 for ; Fri, 30 Oct 1998 17:52:58 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA24814; Fri, 30 Oct 98 17:49:11 JST Date: Fri, 30 Oct 98 17:49:11 JST From: Yoshio Eriguchi Message-Id: <9810300849.AA24814@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu Subject: NEtag.txt Content-Type: text Content-Length: 47627 *** EOOH *** Date: Fri, 30 Oct 98 17:49:11 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu Subject: NEtag.txt Content-Type: text Content-Length: 47627 江里口です。 トレーニングデータを作り変えました。 一度しか、見ていないので、今一つ完成度はよくないかもしれません。 主にに次のような訂正がありました。 ・役職中の部分表現である組織名をとるようにしました。 ・単独ででてくる一般名詞の組織名はOPTIONALにしました。 ・単独ででてくる支局名をOPTIONALにしました。 ・OPTIONALにしたほうがよいと思うものにタグをつけました。 ・サービス名は基本的にタグをつけました。 ・以前の正解作成時に、すでに混入していた誤りを独断で修正しました。 ・タグをなくしました。 以前のデータとかなり違いがでています。 極力、ドライラン前に公開したほうがよいと思います。 ------------------------------------------------------------ # # TEST for test.key # TAGSET ORGANIZATION TAGSET PERSON TAGSET LOCATION TAGSET ARTIFACT TAGSET DATE TAGSET TIME TAGSET MONEY TAGSET PERCENT TAGSET OPTIONAL TAGSET ? DOCNO 940413041 @ 12 19 富士ゼロックス @ 22 29 企業福祉度調査 @ 47 54 富士ゼロックス @ 66 73 産業労働研究所 @ 75 77 東京 @ 79 82 十二日 @ 87 94 企業福祉度調査 @ 138 145 企業福祉研究会 @ 150 154 藤田至孝 @ 154 158 亜細亜大 @ 162 166 今年一月 @ 258 265 富士ゼロックス @ 286 289 旭化成 @ 291 296 東急百貨店 DOCNO 940413042 @ 3 8 サントリー @ 21 26 サントリー @ 27 30 十二日 @ 76 80 五月一日 @ 103 106 八億円 @ 121 124 九億円 @ 136 145 赤玉スイートワイン @ 159 161 十円 @ 165 170 五百六十円 @ 172 185 ニュースピリッツ・カスタム @ 199 202 三十円 @ 206 211 九百三十円 @ 213 223 ストロワヤ・ウォッカ @ 235 238 五十円 @ 242 248 千六百五十円 DOCNO 940413043 @ 17 23 臓器移植法案 @ 24 28 札幌医大 @ 125 127 国会 @ 178 180 国会 @ 595 597 国会 @ 635 637 国会 @ 737 739 国会 @ 757 760 科学部 @ 761 764 吉川学 DOCNO 940413044 @ 15 19 横田基地 @ 27 31 横田基地 @ 43 46 十二日 @ 71 74 十三日 @ 93 95 五日 @ 127 131 横田基地 @ 159 164 三月三十日 @ 165 169 東京高裁 @ 232 236 昨年二月 @ 246 250 横田基地 @ 255 258 最高裁 @ 292 295 法務省 @ 305 307 憲法 @ 364 369 防衛施設庁 @ 382 384 横田 @ 391 394 最高裁 @ 406 411 一九八七年 @ 414 418 横田基地 @ 442 446 東京高裁 @ 467 469 横田 @ 477 479 米軍 @ 494 496 米軍 @ 499 502 最高裁 @ 510 516 日米地位協定 @ 520 522 日本 @ 556 557 米 DOCNO 940413045 @ 20 22 細川 @ 25 27 武村 @ 32 36 細川護煕 @ 47 50 十二日 @ 67 71 武村正義 @ 71 73 官房 @ 184 186 武村 @ 207 211 日本新党 @ 219 221 新党 @ 369 370 自 @ 370 371 社 @ 379 381 憲法 @ 441 443 憲法 @ 462 464 武村 @ 466 470 さきがけ @ 490 492 細川 @ 496 500 さきがけ @ 504 506 武村 @ 582 588 東京佐川急便 @ 591 594 一億円 @ 599 603 NTT株 DOCNO 940413046 @ 3 8 渡辺美智雄 @ 42 45 自民党 @ 46 51 渡辺美智雄 @ 56 57 外 @ 66 69 十二日 @ 102 104 渡辺 @ 132 134 渡辺 @ 136 140 細川護煕 @ 162 165 渡辺派 @ 204 207 羽田孜 @ 211 212 外 @ 290 292 新生 @ 293 295 公明 @ 296 300 日本新党 @ 337 348 朝鮮民主主義人民共和国 @ 349 352 北朝鮮 @ 381 384 新生党 @ 396 400 ミッチー @ 417 419 渡辺 @ 430 434 さきがけ @ 435 438 社会党 @ 452 454 渡辺 @ 477 478 半 @ 490 492 衆院 @ 508 510 渡辺 @ 514 516 渡辺 @ 533 536 渡辺派 @ 540 543 新生党 @ 557 561 小沢一郎 @ 561 564 新生党 @ 590 592 渡辺 @ 608 610 渡辺 @ 630 633 十二日 @ 672 674 渡辺 @ 678 680 小沢 @ 716 718 小沢 @ 732 734 渡辺 @ 746 749 自民党 @ 849 852 十一日 @ 875 877 渡辺 @ 903 906 自民党 @ 959 962 自民党 @ 980 982 渡辺 @ 998 1001 自民党 @ 1029 1031 渡辺 @ 1094 1096 河野 @ 1113 1116 十二日 @ 1117 1119 河野 @ 1144 1146 河野 @ 1149 1152 渡辺派 @ 1162 1163 夕 @ 1164 1169 派閥幹部会 DOCNO 940413047 @ 3 7 森井忠良 @ 11 13 国会 @ 20 26 臓器移植法案 @ 27 31 移植法案 @ 37 54 脳死及び臓器移植に関する各党協議会 @ 56 59 十二日 @ 59 63 午後三時 @ 64 71 衆議院議員会館 @ 88 92 森井忠良 @ 93 96 社会党 @ 96 98 衆院 @ 171 173 国会 @ 177 180 三時半 @ 181 183 森井 @ 211 213 衆院 @ 233 235 森井 @ 256 258 国会 @ 299 301 衆院 @ 301 306 厚生委員会 @ 324 328 山本孝史 @ 329 333 日本新党 @ 333 335 衆院 DOCNO 940413048 @ 3 8 デンマーク @ 24 30 臓器移植法案 @ 50 52 日本 @ 84 89 デンマーク @ 98 103 デンマーク @ 105 110 一九八五年 @ 123 132 移植に関する委員会 @ 165 170 八七年一月 @ 187 189 国会 @ 199 201 国会 @ 219 221 六月 @ 233 243 デンマーク倫理評議会 @ 302 308 八八年十二月 @ 367 372 デンマーク @ 395 400 旧西ドイツ @ 412 415 八九年 @ 416 421 旧西ドイツ @ 426 431 デンマーク @ 454 459 デンマーク @ 484 489 九〇年一月 @ 490 491 法 @ 494 497 評議会 @ 516 536 検視、解剖及び臓器移植などに関する法律案 @ 543 545 五月 @ 586 588 七月 @ 598 604 臓器移植法案 @ 744 759 角膜と腎臓(じんぞう)の移植法 DOCNO 940413049 @ 3 6 NTT @ 11 12 衆 @ 12 13 参 @ 20 29 全国労働組合総連合 @ 31 33 大阪 @ 35 44 全国労働組合総連合 @ 45 48 大江洸 @ 58 61 十二日 @ 62 65 郵政省 @ 70 76 日本電信電話 @ 77 80 NTT @ 93 97 番号案内 @ 98 101 一〇四 @ 115 119 衆参両院 @ 139 142 NTT @ 148 152 一千億円 @ 158 161 五兆円 @ 199 202 新電電 DOCNO 940413055 @ 9 14 2・38% @ 19 21 大阪 @ 26 29 十二日 @ 36 38 郵政 @ 39 41 林野 @ 42 44 印刷 @ 45 47 造幣 @ 51 54 今年度 @ 76 78 全逓 @ 79 82 全郵政 @ 83 86 郵産労 @ 87 89 全林 @ 90 93 日林労 @ 94 97 全印刷 @ 98 101 全造幣 @ 115 120 二・三八% @ 121 129 六千九百二十八円 DOCNO 940413056 @ 25 29 神崎武法 @ 29 31 郵政 @ 34 36 大阪 @ 38 42 神崎武法 @ 42 44 郵政 @ 46 49 十二日 @ 65 72 一九九三年七月 @ 133 137 江川晃正 @ 137 142 放送行政局 @ 144 147 十一日 @ 181 183 神崎 @ 183 185 郵政 DOCNO 940413058 @ 3 10 日本原子力発電 @ 11 18 敦賀原発1号機 @ 36 38 大阪 @ 40 47 日本原子力発電 @ 48 50 原電 @ 52 59 敦賀原発1号機 @ 60 69 福井県敦賀市明神町 @ 93 96 十二日 @ 96 100 午後五時 @ 139 141 原電 @ 175 179 昨年九月 @ 181 184 十二月 @ 207 209 一月 @ 225 227 午前 @ 254 256 原電 @ 256 261 敦賀事務所 DOCNO 940413059 @ 10 12 竹島 @ 21 31 日韓偶発事故防止協定 @ 33 35 大阪 @ 37 48 朝鮮民主主義人民共和国 @ 49 52 北朝鮮 @ 64 65 日 @ 65 66 韓 @ 97 105 偶発事故防止協定 @ 116 119 十二日 @ 137 139 竹島 @ 171 179 偶発事故防止協定 @ 181 182 日 @ 182 183 韓 @ 186 191 防空識別圏 @ 192 196 ADIZ @ 204 206 対馬 @ 244 245 日 @ 245 246 韓 @ 262 264 竹島 @ 347 351 対馬海峡 @ 364 366 竹島 @ 409 413 今月下旬 @ 414 417 李炳台 @ 418 420 韓国 @ 420 422 国防 @ 425 426 日 DOCNO 940413060 @ 3 9 日本物理学会 @ 13 24 理科教育の再生を訴える @ 38 40 大阪 @ 42 48 日本物理学会 @ 49 55 応用物理学会 @ 56 64 日本物理教育学会 @ 69 72 十二日 @ 74 85 理科教育の再生を訴える DOCNO 940413061 @ 27 31 神坂直樹 @ 44 46 大阪 @ 54 58 神坂直樹 @ 65 71 大阪府箕面市 @ 73 76 最高裁 @ 90 92 神坂 @ 98 101 箕面忠 @ 107 110 原告団 @ 113 115 玲子 @ 122 126 熊野勝之 @ 126 129 弁護団 @ 132 135 十二日 @ 136 140 大阪地裁 @ 191 193 神坂 @ 299 301 憲法 @ 313 316 最高裁 @ 356 358 神坂 @ 390 393 十二日 @ 394 397 東京都 @ 410 412 神坂 DOCNO 940413062 @ 28 33 山口二三子 @ 38 44 東京都葛飾区 @ 76 78 去年 DOCNO 940413064 @ 9 15 アルジェリア @ 44 47 アラブ @ 51 53 欧州 @ 56 58 中東 @ 72 74 中東 @ 86 88 日本 @ 113 119 アルジェリア @ 142 145 地中海 @ 215 217 欧州 @ 223 226 アラブ @ 252 255 アラブ @ 256 258 欧州 @ 261 263 中東 @ 297 301 一月下旬 @ 305 311 アルジェリア @ 330 333 アラブ @ 334 336 中東 @ 350 353 地中海 @ 364 368 アルジェ @ 451 455 フランス @ 486 492 アルジェリア @ 493 498 一九六二年 @ 499 503 フランス @ 527 533 八〇年代後半 @ 576 581 九一年暮れ @ 603 605 八割 @ 636 644 イスラム救国戦線 @ 645 648 FIS @ 720 722 一月 @ 723 727 国民会議 @ 754 757 FIS @ 799 802 FIS @ 883 887 昨年九月 @ 1015 1018 FIS @ 1152 1155 FIS @ 1193 1197 アルジェ @ 1251 1252 英 @ 1321 1324 FIS @ 1333 1336 FIS @ 1350 1353 FIS @ 1398 1404 アルジェリア @ 1503 1506 ロシア @ 1508 1514 カラシニコフ @ 1539 1542 二年前 @ 1551 1554 FIS @ 1564 1568 アルジェ @ 1602 1605 FIS @ 1653 1656 FIS @ 1706 1709 FIS @ 1783 1786 アラブ @ 1804 1807 カイロ @ 1828 1834 アルジェリア @ 1852 1856 エジプト @ 1866 1872 アルジェリア @ 1880 1882 四月 @ 1899 1900 欧 @ 1900 1901 米 @ 1913 1916 アラブ @ 1928 1929 欧 @ 1929 1930 米 @ 1973 1975 八割 @ 2007 2011 エジプト @ 2013 2019 アルジェリア @ 2023 2026 FIS @ 2045 2048 FIS @ 2091 2092 年 @ 2111 2117 アルジェリア @ 2186 2190 田嶌徳弘 @ 2191 2196 カイロ支局 DOCNO 940413065 @ 29 33 松波洋子 @ 38 44 東京都葛飾区 @ 53 58 上越新幹線 @ 231 234 北陸線 DOCNO 940413069 @ 31 36 中川真由美 @ 41 48 兵庫県加古川市 @ 50 53 春休み @ 72 73 春 @ 127 129 日本 @ 152 154 去年 @ 196 201 昨年十二月 @ 202 204 正月 DOCNO 940413075 @ 7 11 PL法案 @ 44 55 製造物責任(PL)法案 @ 118 120 民法 @ 134 137 PL法 @ 138 139 欧 @ 139 140 米 @ 148 155 オーストラリア @ 156 158 中国 @ 159 163 ブラジル @ 259 262 PL法 @ 284 286 国会 @ 413 421 日本弁護士連合会 @ 503 506 先月末 @ 507 511 大阪地裁 @ 517 523 松下電器産業 @ 555 557 松下 @ 614 616 松下 @ 735 739 大阪地裁 @ 926 928 民法 @ 942 946 PL法案 @ 971 978 国民生活審議会 @ 1074 1077 PL法 @ 1102 1105 PL法 @ 1110 1114 アメリカ @ 1292 1299 アダム・スミス DOCNO 940413077 @ 12 15 郵政省 @ 45 47 昨秋 @ 48 53 テレビ朝日 @ 55 58 報道局 @ 99 102 郵政省 @ 118 121 郵政省 @ 122 126 江川晃正 @ 126 131 放送行政局 @ 136 138 昨夏 @ 288 291 郵政省 @ 324 326 江川 @ 336 339 NHK @ 636 640 開票速報 @ 659 666 選挙管理委員会 @ 719 721 昨夏 @ 1115 1118 郵政省 @ 1176 1183 放送法三条の二 DOCNO 940413080 @ 5 6 米 @ 15 23 ニュージーランド @ 23 25 国会 @ 28 32 アンザス @ 38 39 日 @ 41 50 ピーター・タプセル @ 51 59 ニュージーランド @ 59 61 国会 @ 68 71 十二日 @ 72 75 東京都 @ 77 81 毎日新聞 @ 103 104 米 @ 156 157 米 @ 157 158 豪 @ 167 173 アンザス条約 @ 203 206 外信部 @ 207 211 川西和夫 @ 213 216 労働党 @ 222 227 昨年十一月 @ 234 237 国民党 @ 259 261 国会 @ 282 285 労働党 @ 290 292 国防 @ 307 308 米 @ 319 321 米国 @ 355 363 ニュージーランド @ 406 408 米国 @ 409 415 アンザス条約 @ 471 477 アンザス条約 @ 570 572 国会 @ 626 629 国民党 @ 630 633 労働党 @ 665 668 労働党 @ 699 704 ボルジャー @ 707 709 英国 @ 804 809 一八四〇年 @ 810 812 英国 @ 821 828 ワイタンギ条約 DOCNO 940413082 @ 10 14 バンコク @ 15 17 タイ @ 19 29 ロミオとジュリエット @ 57 59 タイ @ 66 73 ムアンとリット @ 75 79 チュート @ 116 120 チュート @ 129 131 タイ @ 158 160 タイ @ 172 174 タイ @ 190 194 明治維新 @ 199 204 ラーマ四世 @ 229 232 ムアン @ 233 237 メナム川 @ 244 247 リット @ 264 267 リット @ 274 277 ムアン @ 281 284 ムアン @ 288 299 チンタラー・スカパット @ 311 314 リット @ 316 319 ムアン @ 363 366 ムアン @ 415 418 ムアン @ 426 429 リット @ 483 488 ラーマ四世 @ 492 495 二年前 @ 505 509 プミポン @ 557 559 タイ @ 561 571 ロミオとジュリエット @ 587 591 草野靖夫 DOCNO 940413083 @ 4 6 大岡 @ 12 17 シアヌーク @ 26 31 カンボジア @ 32 37 カンボジア @ 38 43 シアヌーク @ 46 49 12日 @ 49 50 昼 @ 51 53 王宮 @ 63 71 旧シアヌーク時代 @ 101 105 大岡越前 @ 145 147 北京 @ 149 150 半 @ 169 174 シアヌーク @ 345 351 バンコク支局 DOCNO 940413084 @ 8 10 首都 @ 28 32 ルワンダ @ 34 41 ヨハネスブルク @ 41 44 12日 @ 44 47 福井聡 @ 48 51 政府軍 @ 59 67 ルワンダ愛国戦線 @ 69 72 RPF @ 88 94 中部アフリカ @ 95 99 ルワンダ @ 100 103 十二日 @ 104 110 ハビャリマナ @ 124 131 シンディクガボ @ 155 158 キガリ @ 163 166 RPF @ 173 176 RPF @ 180 182 首都 @ 203 206 キガリ @ 222 226 カバンダ @ 243 246 政府軍 @ 267 271 ギタラマ @ 287 290 RPF @ 294 297 キガリ @ 317 319 午前 @ 320 322 首都 @ 327 330 RPF @ 358 361 RPF @ 372 374 首都 @ 422 426 キガリ市 @ 434 437 RPF DOCNO 940413085 @ 4 6 国連 @ 36 42 モザンビーク @ 81 83 ガリ @ 87 89 国連 @ 165 167 国連 @ 167 173 モザンビーク @ 235 238 マプト @ 239 242 福井聡 @ 333 345 フィリップ・モンガーニャ @ 360 363 マプト @ 376 380 カテンベ @ 383 389 モンガーニャ @ 395 399 旧政府軍 @ 424 427 政府軍 @ 443 466 「モザンビーク民族抵抗運動」(RENAMO)軍 @ 588 592 カテンベ @ 616 619 新国軍 @ 678 681 新国軍 @ 714 717 新国軍 @ 761 765 三月十日 @ 778 782 マシンガ @ 809 813 アイエロ @ 816 820 イタリア @ 869 870 半 @ 960 962 十月 @ 999 1002 新国軍 @ 1017 1021 旧政府軍 @ 1061 1065 アンゴラ @ 1077 1089 第二次国連アンゴラ検証団 @ 1090 1097 UNAVEM2 @ 1134 1136 国連 @ 1136 1142 モザンビーク @ 1202 1206 アイエロ @ 1253 1255 国連 @ 1255 1261 モザンビーク @ 1265 1271 モザンビーク @ 1272 1277 1975年 @ 1278 1283 ポルトガル @ 1340 1346 92年10月 @ 1358 1363 93年2月 @ 1387 1389 国連 @ 1389 1395 モザンビーク @ 1402 1408 94年10月 DOCNO 940413086 @ 3 6 ロシア @ 10 13 PHP @ 19 23 NATO @ 37 41 スペイン @ 44 49 マドリード @ 49 52 12日 @ 52 56 飯島一孝 @ 57 61 スペイン @ 65 70 エリツィン @ 71 74 ロシア @ 78 81 十二日 @ 82 87 マドリード @ 88 93 ゴンサレス @ 94 98 スペイン @ 138 146 北大西洋条約機構 @ 147 151 NATO @ 153 157 ボスニア @ 167 171 NATO @ 172 195 「平和のためのパートナーシップ」(PFP)協定 @ 207 211 二十一日 @ 245 249 ボスニア @ 261 265 セルビア @ 290 295 コズイレフ @ 295 296 外 @ 298 301 十四日 @ 305 312 ミロシェビッチ @ 313 317 セルビア DOCNO 940413087 @ 3 6 インド @ 7 12 カシミール @ 40 43 インド @ 45 55 ジャム・カシミール州 @ 56 59 12日 @ 96 104 ニューデリー支局 DOCNO 940413088 @ 3 6 ペリー @ 6 7 米 @ 7 9 国防 @ 12 15 17日 @ 17 18 韓 @ 19 21 韓国 @ 21 24 国防省 @ 25 28 12日 @ 29 32 ペリー @ 32 33 米 @ 33 35 国防 @ 38 41 17日 @ 51 52 韓 @ 61 66 ソウル支局 DOCNO 940413089 @ 3 5 韓国 @ 6 9 北朝鮮 @ 21 23 韓国 @ 26 29 12日 @ 30 41 朝鮮民主主義人民共和国 @ 42 45 北朝鮮 @ 47 50 11日 @ 80 82 韓国 @ 100 103 板門店 @ 154 159 ソウル支局 DOCNO 940413090 @ 3 6 韓昇洲 @ 7 9 韓国 @ 9 10 外 @ 12 15 きょう @ 16 17 露 @ 18 20 韓国 @ 21 24 韓昇洲 @ 24 25 外 @ 28 31 12日 @ 32 35 ロシア @ 36 38 英国 @ 44 47 ソウル @ 53 54 韓 @ 54 55 外 @ 58 61 13日 @ 63 66 15日 @ 68 71 ロシア @ 78 83 ソウル支局 DOCNO 940413091 @ 3 12 パレスチナ警察部隊 @ 24 30 イスラエル軍 @ 40 43 カイロ @ 43 46 12日 @ 46 50 田嶌徳弘 @ 51 54 カイロ @ 62 67 パレスチナ @ 74 83 パレスチナ解放機構 @ 84 87 PLO @ 89 94 イスラエル @ 100 103 十二日 @ 104 109 イスラエル @ 113 115 ガザ @ 116 119 エリコ @ 124 133 パレスチナ警察部隊 @ 158 160 ガザ @ 161 164 エリコ @ 165 170 パレスチナ @ 181 186 パレスチナ @ 220 225 パレスチナ @ 251 257 イスラエル軍 @ 263 266 十三日 @ 310 315 イスラエル @ 315 320 建国記念日 @ 336 339 十二日 @ 351 353 来週 @ 358 363 イスラエル @ 364 367 ラビン @ 370 373 十二日 @ 374 379 イスラエル @ 379 380 英 @ 383 392 エルサレム・ポスト @ 403 407 五月前半 DOCNO 940413092 @ 3 4 米 @ 4 5 露 @ 5 6 外 @ 14 15 米 @ 17 21 ボスニア @ 30 35 ワシントン @ 35 38 12日 @ 38 42 重村智計 @ 43 50 クリストファー @ 50 51 米 @ 51 53 国務 @ 56 59 十一日 @ 60 64 ボスニア @ 65 69 セルビア @ 81 82 米 @ 82 83 露 @ 84 85 外 @ 87 89 国防 @ 105 106 米 @ 106 107 露 @ 120 121 外 @ 123 125 国防 @ 129 131 米国 @ 170 173 ロシア DOCNO 940413093 @ 3 7 セルビア @ 22 27 ゴラジュデ @ 34 38 ウィーン @ 38 41 12日 @ 41 45 高畑昭男 @ 46 52 ベオグラード @ 62 70 北大西洋条約機構 @ 71 75 NATO @ 77 82 ゴラジュデ @ 90 102 ボスニア・ヘルツェゴビナ @ 119 123 セルビア @ 152 157 ゴラジュデ @ 198 203 ゴラジュデ @ 214 219 ムラジッチ @ 238 242 ボスニア @ 255 260 クロアチア @ 289 290 米 @ 290 291 欧 @ 302 306 今年初め @ 307 310 政府軍 @ 325 328 オロボ @ 329 333 マグライ @ 379 381 国連 @ 382 386 NATO @ 423 427 セルビア @ 438 445 旧ユーゴ連邦軍 @ 468 471 政府軍 @ 487 492 クロアチア @ 520 524 NATO @ 539 543 セルビア @ 560 565 ゴラジュデ @ 590 594 セルビア @ 619 624 カラジッチ DOCNO 940413094 @ 3 6 楚図南 @ 11 17 中国民主同盟 @ 22 28 中日友好協会 @ 31 34 楚図南 @ 36 42 中国民主同盟 @ 47 53 中日友好協会 @ 56 59 新華社 @ 65 68 11日 @ 68 70 午前 @ 76 78 北京 @ 86 92 1920年代 @ 93 96 共産党 @ 99 107 全国人民代表大会 @ 108 111 全人代 @ 122 128 対外友好協会 @ 131 137 中日友好協会 @ 151 153 北京 @ 154 156 時事 DOCNO 940413095 @ 21 25 バンコク @ 31 33 4倍 @ 36 40 バンコク @ 60 66 シーロム通り @ 70 75 ラライサブ @ 125 127 タイ @ 155 162 七百―千バーツ @ 164 172 三千―四千三百円 @ 178 183 五十バーツ @ 189 193 百バーツ @ 198 203 二十バーツ @ 213 215 二倍 @ 218 222 バンコク @ 256 257 半 @ 260 262 三割 @ 309 311 タイ @ 342 346 ワコール @ 351 357 タイワコール @ 358 360 タイ @ 370 372 六割 @ 376 380 バンコク @ 401 405 昨年暮れ @ 406 408 日本 @ 431 441 グッド・アップ・ブラ @ 449 456 二百二十バーツ @ 457 459 日本 @ 463 465 千円 @ 475 477 日本 @ 479 482 四千円 @ 488 490 日本 @ 494 496 タイ @ 525 527 タイ @ 536 542 百三十バーツ @ 676 682 タイワコール @ 703 705 日本 @ 714 716 千円 @ 729 732 四千円 @ 750 752 四倍 @ 768 770 日本 @ 787 789 日本 @ 814 816 日本 @ 822 824 タイ @ 834 836 タイ @ 853 859 タイワコール @ 860 863 成田尭 @ 871 873 タイ @ 893 895 日本 @ 918 920 日本 @ 934 938 バンコク @ 944 948 ワコール @ 957 959 日本 @ 992 996 バンコク @ 997 1001 加藤暁子 DOCNO 940413096 @ 3 6 MMF @ 17 25 3兆6900億円 @ 43 58 マネー・マネジメント・ファンド @ 59 62 MMF @ 67 69 三月 @ 71 79 三兆六千九百億円 @ 84 87 三月末 @ 91 99 八兆九千三百億円 @ 106 114 証券投資信託協会 @ 115 118 十二日 @ 175 178 MMF @ 186 190 昨年九月 @ 193 199 二・九〇七% @ 201 206 今年三月末 @ 208 214 二・二九九% @ 242 244 三月 @ 250 258 五兆二千九百億円 @ 269 275 一兆六千億円 @ 290 298 三兆六千九百億円 @ 306 308 四月 @ 316 319 MMF @ 324 327 一兆円 DOCNO 940413097 @ 3 7 PL法案 @ 32 43 製造物責任(PL)法案 @ 49 51 国会 @ 119 121 松下 @ 139 145 家電製品協会 @ 197 201 来年四月 @ 234 236 先月 @ 237 240 PL法 @ 248 254 松下電器産業 @ 271 275 大阪地裁 @ 330 331 月 @ 390 393 PL法 @ 469 477 日本製薬工業協会 @ 478 482 日野正信 @ 483 493 製造物責任問題検討会 @ 505 507 日野 @ 615 618 PL法 @ 645 651 東京海上火災 @ 670 676 今年一―三月 @ 685 688 PL法 @ 726 735 生産物賠償責任保険 @ 736 740 PL保険 @ 755 758 PL法 @ 811 814 PL法 @ 835 845 日本化粧品工業連合会 @ 863 866 薬事法 @ 880 886 一九七〇年代 @ 994 999 日本貿易会 @ 1000 1005 江尻宏一郎 @ 1008 1012 三井物産 DOCNO 940413098 @ 18 22 八尋俊邦 @ 23 27 三井物産 @ 71 75 八尋俊邦 @ 76 80 三井物産 @ 102 104 半分 DOCNO 940413099 @ 3 6 タカラ @ 13 17 佐藤博久 @ 29 32 タカラ @ 33 36 十二日 @ 37 41 佐藤博久 @ 64 68 佐藤安太 @ 82 84 博久 @ 87 89 安太 @ 99 103 六月下旬 @ 106 110 佐藤博久 @ 112 120 さとう・ひろひさ @ 121 126 1979年 @ 126 129 慶大法 @ 131 134 80年 @ 134 137 タカラ @ 147 152 92年4月 @ 158 161 東京都 DOCNO 940413100 @ 24 27 NKK @ 28 33 荏原製作所 @ 34 37 NKK @ 38 43 荏原製作所 @ 47 50 十二日 @ 130 133 厚生省 @ 141 145 五分の一 DOCNO 940413101 @ 21 27 服部セイコー @ 28 34 服部セイコー @ 57 67 クルージングマスター @ 73 76 22日 @ 111 115 10万円 DOCNO 940413102 @ 29 42 セイコーエプソンダイレクト @ 43 56 セイコーエプソンダイレクト @ 58 61 IBM @ 73 84 エンデバーATシリーズ @ 87 93 AT5000 @ 95 98 20日 @ 140 148 29万8000円 @ 165 174 エンデバーシリーズ @ 182 190 セイコーエプソン DOCNO 940413103 @ 3 5 来春 @ 19 24 40・8% @ 26 31 リクルート @ 34 43 リクルートリサーチ @ 44 47 十二日 @ 51 53 来春 @ 74 76 今年 @ 100 105 四〇・八% @ 129 133 九・〇% @ 156 158 二月 @ 160 162 三月 @ 183 188 二五・二% @ 239 244 四八・五% @ 246 248 前年 DOCNO 940413104 @ 3 6 全銀協 @ 10 14 住友銀行 @ 15 19 森川敏雄 @ 22 31 全国銀行協会連合会 @ 32 35 十二日 @ 43 46 今年度 @ 63 67 奥田正司 @ 68 74 第一勧業銀行 @ 86 90 住友銀行 @ 91 95 森川敏雄 @ 103 107 大和銀行 @ 108 111 藤田彬 @ 114 118 東京銀行 @ 119 122 高垣佑 @ 140 144 二十六日 @ 157 160 全銀協 @ 167 170 さくら @ 171 175 第一勧業 @ 176 178 富士 @ 179 181 三菱 @ 195 198 今年度 @ 200 202 関西 @ 204 206 住友 @ 207 209 三和 DOCNO 940413105 @ 3 9 相鉄ローゼン @ 12 17 菅野健一郎 @ 19 25 相鉄ローゼン @ 26 29 十二日 @ 30 34 清水繁夫 @ 44 49 菅野健一郎 @ 67 73 五月二十六日 @ 94 99 菅野健一郎 @ 101 111 すがの・けんいちろう @ 112 117 1956年 @ 117 121 青学大経 @ 123 127 相模鉄道 @ 130 133 62年 @ 133 137 相鉄興業 @ 138 145 現相鉄ローゼン @ 156 161 90年5月 @ 166 169 東京都  1,, Summary-line: 30-Oct eriguchi@lit.rd.nttdata.c #NEtag.txt memo Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id DAA05014 for ; Fri, 30 Oct 1998 03:56:42 -0500 (EST) Received: from ms.nttdata.co.jp (ms1.nttdata.co.jp [163.135.193.232]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id DAA01074 for ; Fri, 30 Oct 1998 03:56:39 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id RAA20048 for ; Fri, 30 Oct 1998 17:56:39 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id RAA06030 for ; Fri, 30 Oct 1998 17:56:38 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id RAA08540 for ; Fri, 30 Oct 1998 17:56:37 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id RAA13265 for ; Fri, 30 Oct 1998 17:56:36 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA24830; Fri, 30 Oct 98 17:52:50 JST Date: Fri, 30 Oct 98 17:52:50 JST From: Yoshio Eriguchi Message-Id: <9810300852.AA24830@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu Subject: NEtag.txt memo Content-Type: text Content-Length: 13232 *** EOOH *** Date: Fri, 30 Oct 98 17:52:50 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu Subject: NEtag.txt memo Content-Type: text Content-Length: 13232 江里口です。 公開したトレーニングデータからタグを修正したものの理由です。 関根さんが判断する時の参考にしてください。 もし、今週末中に公開するのであれば、関根さんと私の違いの部分は 全部OPTIONALにしましょう。 -- Eriguchi Document: 940413041 mis 22 29 ARTIFACT 企業福祉度調査 ・タグ付け忘れ Document: 940413045 ovg 13 16 ? 55年 ・私はタグを付けたくないですが、OPTIONALでもよいかも mis 71 73 ORGANIZATION 官房 ・役職の部分文字列をとることになったので mis 219 221 ORGANIZATION 新党 ・日本新党の略 ovg 372 375 ? 五五年 前述の通り mis 599 603 ARTIFACT NTT株 ovg 599 602 ORGANIZATION NTT 株はとりあえずARTIFACT Document: 940413046 ------------------------------------------------------------------------------- RESULT OFFSET TAG STRING (start) (end) ------------------------------------------------------------------------------- mis 56 57 ORGANIZATION 外 mis 211 212 ORGANIZATION 外 ・部分表現 mis 477 478 OPTIONAL 半 ・過半数の一部、悩んだのでOPTIONAL mis 1164 1169 OPTIONAL 派閥幹部会 ・単独の一般名詞組織名 Document: 940413047 ------------------------------------------------------------------------------- RESULT OFFSET TAG STRING (start) (end) ------------------------------------------------------------------------------- mis 11 13 OPTIONAL 国会 ovg 11 13 ORGANIZATION 国会 mis 256 258 OPTIONAL 国会 ovg 256 258 ORGANIZATION 国会 ・会議の意味がつよい国会(組織名とは考えられない) Document: 940413048 mis 490 491 ORGANIZATION 法 ・部分表現 Document: 940413049 ------------------------------------------------------------------------------- RESULT OFFSET TAG STRING (start) (end) ------------------------------------------------------------------------------- mis 62 65 LOCATION 郵政省 ovg 62 65 ORGANIZATION 郵政省 ★文脈で通常組織名が場所として使われる場合はどうするんでしたっけ? 定義からは分かりません。 以前の議論も、検索した範囲では分からなかったです。 mis 93 97 ARTIFACT 番号案内 mis 98 101 ARTIFACT 一〇四 ?サービス名がARTIFACTの場合はARTIFACTとすべき Document: 940413056 ------------------------------------------------------------------------------- mis 29 31 ORGANIZATION 郵政 mis 42 44 ORGANIZATION 郵政 mis 137 142 ORGANIZATION 放送行政局 mis 183 185 ORGANIZATION 郵政 ・部分表現 Document: 940413059 mis 186 191 OPTIONAL 防空識別圏 mis 192 196 OPTIONAL ADIZ ・前回、議論の途中で時間切れになった問題。 OPTIONALが妥当なのでは? mis 420 422 ORGANIZATION 国防 mis 425 426 LOCATION 日 ・部分表現 Document: 940413060 mis 13 24 OPTIONAL 理科教育の再生を訴える mis 74 85 OPTIONAL 理科教育の再生を訴える 「声明」の取捨選択が判断がつきかねるのでOPTIONAL Document: 940413061 ------------------------------------------------------------------------------- RESULT OFFSET TAG STRING (start) (end) ------------------------------------------------------------------------------- mis 98 101 OPTIONAL 箕面忠 ・人名か否か分からないが、調べるのが面倒なのでOPTIONAL mis 107 110 OPTIONAL 原告団 mis 126 129 OPTIONAL 弁護団 ・対象特定できる組織名だが一般的名名称 (定義を読むだけでは組織名にしない理由の根拠がない) Document: 940413064 mis 1251 1252 OPTIONAL 英 ・9月の皆さんとの議論で認められたOPTIONALのきっかけ。 mis 2091 2092 DATE 年 ・年内のタグつけなんですが、内は範囲表現になるので こういう形になりました。 #気持ち悪いんですけど、しょうがないですね。 mis 2191 2196 OPTIONAL カイロ支局 ovg 2191 2196 ORGANIZATION カイロ支局 ・単独で現れた支局名。単独で現れた下位組織名と同じに すべきという私の主張です。 Document: 940413065 mis 53 58 ARTIFACT 上越新幹線 ovg 53 58 ? 上越新幹線 ・サービス名と解釈したケース mis 231 234 LOCATION 北陸線 ovg 231 234 ? 北陸線 ・タグの修正忘れ Document: 940413069 mis 72 73 OPTIONAL 春 ovg 72 73 DATE 春 ・「春の交通安全運動」は、特定の時期の運動を表すが、 春単独では、特定できるとはいえない気がするので、 困ったときのOPTIONAL Document: 940413077 ------------------------------------------------------------------------------- RESULT OFFSET TAG STRING (start) (end) ------------------------------------------------------------------------------- mis 55 58 ORGANIZATION 報道局 mis 126 131 OPTIONAL 放送行政局 ・部分表現 mis 636 640 OPTIONAL 開票速報 ・サービス名、クラス的な意味もあるのでOPTIONALかも mis 1176 1183 ARTIFACT 放送法三条の二 ovg 1176 1179 ARTIFACT 放送法 ・タグの修正忘れ Document: 940413080 mis 15 23 LOCATION ニュージーランド ovg 15 25 ORGANIZATION ニュージーランド国会 mis 23 25 ORGANIZATION 国会 mis 51 59 LOCATION ニュージーランド ovg 51 61 ORGANIZATION ニュージーランド国会 mis 59 61 ORGANIZATION 国会 ・Dry Runでは定義に従い分割 mis 38 39 LOCATION 日 ・部分表現 mis 72 75 LOCATION 東京都 ・タグの修正忘れ mis 103 104 LOCATION 米 ・部分表現 mis 203 206 OPTIONAL 外信部 ovg 203 206 ORGANIZATION 外信部 ・単独の一般名称的組織名 mis 213 216 OPTIONAL 労働党 mis 290 292 ORGANIZATION 国防 mis 307 308 LOCATION 米 ・部分表現 Document: 940413082 ------------------------------------------------------------------------------- RESULT OFFSET TAG STRING (start) (end) ------------------------------------------------------------------------------- mis 190 194 OPTIONAL 明治維新 ・前回、議論されないまま。反映されていませんでした 困ったのでOPTIONAL Document: 940413083 mis 51 53 OPTIONAL 王宮 ・特定できる一般名称 mis 149 150 OPTIONAL 半 ・半年間 悩んだ結果 OPTIONAL mis 345 351 OPTIONAL バンコク支局 ovg 345 351 ORGANIZATION バンコク支局 ・上述のとおり Document: 940413084 mis 8 10 OPTIONAL 首都 mis 48 51 OPTIONAL 政府軍 mis 180 182 OPTIONAL 首都 mis 243 246 OPTIONAL 政府軍 mis 320 322 OPTIONAL 首都 mis 372 374 OPTIONAL 首都 ・特定できる一般名詞的の名称 Document: 940413085 mis 395 399 OPTIONAL 旧政府軍 mis 424 427 OPTIONAL 政府軍 mis 616 619 OPTIONAL 新国軍 mis 678 681 OPTIONAL 新国軍 mis 714 717 OPTIONAL 新国軍 mis 999 1002 OPTIONAL 新国軍 mis 1017 1021 ORGANIZATION 旧政府軍 ・特定できる一般名詞的の名称 mis 869 870 OPTIONAL 半 ・今後二年半 Document: 940413086 mis 10 13 OPTIONAL PHP ovg 10 13 ? PHP ・多分、PFPの誤植。 mis 295 296 ORGANIZATION 外 ・部分表現 Document: 940413087 mis 40 43 LOCATION インド ovg 40 45 LOCATION インド北部 ・概略表現 mis 96 104 OPTIONAL ニューデリー支局 ovg 96 104 ORGANIZATION ニューデリー支局 ・前述の通り Document: 940413088 mis 7 9 ORGANIZATION 国防 mis 17 18 ORGANIZATION 韓 mis 33 35 ORGANIZATION 国防 mis 51 52 ORGANIZATION 韓 mis 61 66 OPTIONAL ソウル支局 ovg 61 66 ORGANIZATION ソウル支局 ・前述の通り Document: 940413089 mis 154 159 OPTIONAL ソウル支局 ovg 154 159 ORGANIZATION ソウル支局 ・前述の通り Document: 940413090 mis 9 10 ORGANIZATION 外 mis 16 17 LOCATION 露 mis 24 25 LOCATION 外 mis 54 55 ORGANIZATION 外 mis 78 83 OPTIONAL ソウル支局 ovg 78 83 ORGANIZATION ソウル支局 ・前述のとおり mis 12 15 DATE きょう ・タグ忘れ Document: 940413091 mis 3 12 OPTIONAL パレスチナ警察部隊 ovg 3 12 ORGANIZATION パレスチナ警察部隊 mis 124 133 OPTIONAL パレスチナ警察部隊 ovg 124 133 ORGANIZATION パレスチナ警察部隊 ・正式名称か、限定するための国名か判断できず。 mis 310 315 LOCATION イスラエル ovg 310 320 DATE イスラエル建国記念日 mis 315 320 DATE 建国記念日 ・定義の改定のため mis 379 380 OPTIONAL 英 ・英字はOPTIOANL Document: 940413092 mis 5 6 ORGANIZATION 外 mis 51 53 ORGANIZATION 国務 mis 84 85 ORGANIZATION 外 mis 87 89 ORGANIZATION 国防 mis 120 121 ORGANIZATION 外 mis 123 125 ORGANIZATION 国防 ・前述のとおり Document: 940413093 mis 307 310 OPTIONAL 政府軍 mis 468 471 OPTIONAL 政府軍 ・特定できる一般名称的組織名 Document: 940413095 mis 218 222 LOCATION バンコク mis 376 380 LOCATION バンコク ・バンコクっ子 <-- 定義書、江戸っ子より mis 256 257 PERCENT 半 Document: 940413096 mis 3 6 OPTIONAL MMF ovg 3 6 ? MMF mis 43 58 OPTIONAL マネー・マネジメント・ファンド ovg 43 58 ? マネー・マネジメント・ファンド mis 59 62 OPTIONAL MMF ovg 59 62 ? MMF mis 175 178 OPTIONAL MMF ovg 175 178 ? MMF mis 316 319 OPTIONAL MMF ovg 316 319 ? MMF ・MMFが、クラス名か商品名か判断が難しかったので OPTIONAL Document: 940413097 mis 670 676 DATE 今年一―三月 ovg 670 676 ? 今年一―三月 ・定義改定により mis 726 735 OPTIONAL 生産物賠償責任保険 ovg 726 735 ? 生産物賠償責任保険 mis 736 740 OPTIONAL PL保険 ovg 736 740 ? PL保険 ・クラス名か商品名か判断つかず。 Document: 940413099 ------------------------------------------------------------------------------- RESULT OFFSET TAG STRING (start) (end) ------------------------------------------------------------------------------- mis 126 129 ORGANIZATION 慶大法 ovg 126 128 ORGANIZATION 慶大 ovg 128 129 ORGANIZATION 法 ・定義:連続固有名詞表現より Document: 940413105 ------------------------------------------------------------------------------- RESULT OFFSET TAG STRING (start) (end) ------------------------------------------------------------------------------- mis 117 121 ORGANIZATION 青学大経 ovg 117 120 ORGANIZATION 青学大 ovg 120 121 ORGANIZATION 経 ・定義:連続固有名詞表現より  1,, Summary-line: 30-Oct eriguchi@lit.rd.nttdata.c #definition Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id EAA05034 for ; Fri, 30 Oct 1998 04:04:43 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id EAA01116 for ; Fri, 30 Oct 1998 04:04:40 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id SAA02320 for ; Fri, 30 Oct 1998 18:04:40 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id SAA06724 for ; Fri, 30 Oct 1998 18:04:39 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id SAA08643 for ; Fri, 30 Oct 1998 18:04:39 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id SAA13398 for ; Fri, 30 Oct 1998 18:04:38 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA24879; Fri, 30 Oct 98 18:00:51 JST Date: Fri, 30 Oct 98 18:00:51 JST From: Yoshio Eriguchi Message-Id: <9810300900.AA24879@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu Subject: definition Content-Type: text Content-Length: 1438 *** EOOH *** Date: Fri, 30 Oct 98 18:00:51 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu Subject: definition Content-Type: text Content-Length: 1438 江里口です。 #ドライランのあとの議論になるとはおもいますが。 前回のデータを修正するにあたり昔の議論をかなり読み返しました。 その中でひとつ気になったことが、時間の定義です。 >* 春休みも終わり、新学年になりました。 > > 特定の春休み、新学期を指しているのでDATE? 江里口> 「春休み」はDATEでいいと思います。 江里口> 特定の「春休み」か毎年来る「春休み」かはIREXでは区別しなくてもよい 江里口> と思います。METでは定義に書いてあったから、特定のにこだわりましたが、 江里口> けっきょく正解データもいい加減だったようなきがします。 若尾> 絶対時間表現と相対時間表現の説明がまずされているのですが、 若尾> そのすぐ後に「春休み」が例として出ていて、少し違和感を感じました。 若尾> たぶん、問題は、「春」や「春休み」といった語は、一般名詞としても 若尾> 使えるので、そう思ったのだと思います。定義に明確に、季節や特定の 若尾> 休みを含むとしておいたほうが良いのでは、ないでしょうか。 などがあり、そのあとのめいるを読む限り、こちらの方向になっているようです。 定義では、特定の「春休み」か毎年来る「春休み」かはIREXでは区別するように なっていますが、方針がえしますか? もしそうでない場合は、春休みの例を適当な場所に打つし、 コメントしないと誤解を招きそうです。 -- Eriguchi  1, filed,, Summary-line: 30-Oct eriguchi@lit.rd.nttdata. #NEtag.txt Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id PAA10023 for ; Fri, 30 Oct 1998 15:19:40 -0500 (EST) Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id PAA07294 for ; Fri, 30 Oct 1998 15:19:39 -0500 (EST) Received: (from sekine@localhost) by noreen.cs.nyu.edu (8.9.1/8.9.1) id PAA17436; Fri, 30 Oct 1998 15:19:29 -0500 (EST) Date: Fri, 30 Oct 1998 15:19:29 -0500 (EST) From: Satoshi Sekine Message-Id: <199810302019.PAA17436@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Fri, 30 Oct 98 17:49:11 JST <9810300849.AA24814@pittsburgh.lit.rd.nttdata.co.jp> Subject: NEtag.txt Content-Type: text Content-Length: 1014 *** EOOH *** Date: Fri, 30 Oct 1998 15:19:29 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Fri, 30 Oct 98 17:49:11 JST <9810300849.AA24814@pittsburgh.lit.rd.nttdata.co.jp> Subject: NEtag.txt Content-Type: text Content-Length: 1014 江里口さん: トレーニングデータを見ました。 自分でもタグ付けして比較しました。 僕も一回で急いでやったので非常に性能悪かったのですが、 江里口さんのコメントなどを見ながら「正解」を作成しました。 江里口さんがF=97.99,僕がF=93.90でした。 X-{ 江里口さんの内OPTIONALに変たもの以外(私の独断でOPTIONAL以外の 正解を作ってしまったもの)は: MMF,PL保険は商品名であると読めるので(確かにクラス名かも しれないというのは分りますが)、ARTIFACTにしました。 支局名も明らかな固有名詞が含まれている時にはORGとしました。 普通名詞で特定のものを指してるものの内、「首都」だけは、 OPTIONALを外しました。(ある意味で照応とも取れる) 「衆院厚生委員会」をまとめました。 「訪韓」の「韓」を地名にしました。 色々と議論があるとは思いますが、「誤りが含まれる可能性を 示唆しながら公開します。 関根 # 本当に本来の仕事が忙しいだろう時にありがとうございます。  1, answered,, Summary-line: 4-Nov eriguchi@lit.rd.nttdata.c #[MAILER-DAEMON@mx0.nttdata.co.jp: Returned mail: Host unknown (Name server: lit.rd.nttdata.co.jp.: no data known)] Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id UAA29925 for ; Tue, 3 Nov 1998 20:34:34 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id UAA12289 for ; Tue, 3 Nov 1998 20:34:28 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id KAA09233 for ; Wed, 4 Nov 1998 10:34:25 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id KAA23637 for ; Wed, 4 Nov 1998 10:34:24 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id KAA19576 for ; Wed, 4 Nov 1998 10:34:22 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id KAA12101 for ; Wed, 4 Nov 1998 10:34:23 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA08587; Wed, 4 Nov 98 10:30:27 JST Date: Wed, 4 Nov 98 10:30:27 JST From: Yoshio Eriguchi Message-Id: <9811040130.AA08587@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Tue, 3 Nov 1998 08:57:04 -0500 (EST) <199811031357.IAA19838@noreen.cs.nyu.edu> Subject: [MAILER-DAEMON@mx0.nttdata.co.jp: Returned mail: Host unknown (Name server: lit.rd.nttdata.co.jp.: no data known)] Content-Type: text Content-Length: 1761 *** EOOH *** Date: Wed, 4 Nov 98 10:30:27 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Tue, 3 Nov 1998 08:57:04 -0500 (EST) <199811031357.IAA19838@noreen.cs.nyu.edu> Subject: [MAILER-DAEMON@mx0.nttdata.co.jp: Returned mail: Host unknown (Name server: lit.rd.nttdata.co.jp.: no data known)] Content-Type: text Content-Length: 1761 江里口です。 私の会社のトップドメインのメイルサーバーがおかしかったらしく、 先週の金曜日以降、メイルの配送がおかしかったようです。 御迷惑おかけしました。 金曜日以降のメイルは、火曜日に再送していただいた一通だけですか? いくつか、これから詰めていかなくてはいけない問題はありますが、 とりあえず、データのバージョンアップお疲れ様です。 >MMF,PL保険は商品名であると読めるので(確かにクラス名かも >しれないというのは分りますが)、ARTIFACTにしました。 ここは、私も気持ちはARTIFACTですが、定期預金、終身保険とどう ちがうのと質問を受けた時、答が見つからないので、OPTIONALにし ておいたほうが無難かなとおもっています。関根さんのほうで、う まい説明があることを期待しています。 #私の頭のなかでは、クラスと商品名に境界線は崩壊しています。 >支局名も明らかな固有名詞が含まれている時にはORGとしました。 単独で現れた「福岡支店」なども、抽出するように変わったのでしょ うか? 定義を読み直すと、単独で現れた「福岡支店」は抽出すべき 対象のようですね。このように理解してよろしいでしょうか? もしそうであれば、次回の定義の変更の時に適切な例、説明を入れた ほうがいいですね。 #MET-1, MET-2で参加者の立場で困ったのは、前のバージョンから #いつの間にか、規則がなくなっているものでしたから。 >普通名詞で特定のものを指してるものの内、「首都」だけは、 >OPTIONALを外しました。(ある意味で照応とも取れる) 照応と取るのはいまひとつ理解に苦しみますが、指摘があるまでは 首都を地名あつかいにしないのは、よいと思います。 >「衆院厚生委員会」をまとめました。 >「訪韓」の「韓」を地名にしました。 これは私のミスですね。 -- Eriguchi  1,, Summary-line: 4-Nov eriguchi@lit.rd.nttdata. #[MAILER-DAEMON@mx0.nttdata.co.jp: Returned mail: Host unknown (Name server: lit.rd.nttdata.co.jp.: no data known)] Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id JAA04533 for ; Wed, 4 Nov 1998 09:51:18 -0500 (EST) Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id JAA19774 for ; Wed, 4 Nov 1998 09:51:16 -0500 (EST) Received: (from sekine@localhost) by noreen.cs.nyu.edu (8.9.1/8.9.1) id JAA21796; Wed, 4 Nov 1998 09:51:08 -0500 (EST) Date: Wed, 4 Nov 1998 09:51:08 -0500 (EST) From: Satoshi Sekine Message-Id: <199811041451.JAA21796@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Wed, 4 Nov 98 10:30:27 JST <9811040130.AA08587@pittsburgh.lit.rd.nttdata.co.jp> Subject: [MAILER-DAEMON@mx0.nttdata.co.jp: Returned mail: Host unknown (Name server: lit.rd.nttdata.co.jp.: no data known)] Content-Type: text Content-Length: 3110 *** EOOH *** Date: Wed, 4 Nov 1998 09:51:08 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Wed, 4 Nov 98 10:30:27 JST <9811040130.AA08587@pittsburgh.lit.rd.nttdata.co.jp> Subject: [MAILER-DAEMON@mx0.nttdata.co.jp: Returned mail: Host unknown (Name server: lit.rd.nttdata.co.jp.: no data known)] Content-Type: text Content-Length: 3110 江里口さん: 私の会社のトップドメインのメイルサーバーがおかしかったらしく、 先週の金曜日以降、メイルの配送がおかしかったようです。 御迷惑おかけしました。 金曜日以降のメイルは、火曜日に再送していただいた一通だけですか? もどってきたのが一通だけだったのでそうだと思います。 とりあえず、データのバージョンアップお疲れ様です。 こちらこそ、本当にありがとうございました。 トレーニングデータにもタグ付けしようという提案も江里口さんから でしたし、(それは非常に役に立つ事だと思いますし)本当に ありがとうございました。御苦労様でした。 本当に江里口さんがいてくださって助かりました。 NTTデータがコンテストに参加して、江里口さんの助けが得られ なかったらと思うと背筋が寒くなります。 本試験が終ったら慰安会でもしましょうね。 :-) >MMF,PL保険は商品名であると読めるので(確かにクラス名かも >しれないというのは分りますが)、ARTIFACTにしました。 ここは、私も気持ちはARTIFACTですが、定期預金、終身保険とどう ちがうのと質問を受けた時、答が見つからないので、OPTIONALにし ておいたほうが無難かなとおもっています。関根さんのほうで、う まい説明があることを期待しています。 文脈をなしに「定期貯金」というと説明に困りますが、 MMF、PL保険は文脈にそのまま「商品」だとか「発売」だとか 商品名である事を明示していたので商品名でいいと思いました。 #私の頭のなかでは、クラスと商品名に境界線は崩壊しています。 はい。分ります。 商品名を導入した福本さんに責任を取ってもらいたい所ですね。 :-) >支局名も明らかな固有名詞が含まれている時にはORGとしました。 単独で現れた「福岡支店」なども、抽出するように変わったのでしょ うか? 定義を読み直すと、単独で現れた「福岡支店」は抽出すべき 対象のようですね。このように理解してよろしいでしょうか? 多分いいと思います。 もしそうであれば、次回の定義の変更の時に適切な例、説明を入れた ほうがいいですね。 はい。 >普通名詞で特定のものを指してるものの内、「首都」だけは、 >OPTIONALを外しました。(ある意味で照応とも取れる) 照応と取るのはいまひとつ理解に苦しみますが、指摘があるまでは 首都を地名あつかいにしないのは、よいと思います。 本文を見てないですが、最初の方で「首都○○、、」とあって それ以降「首都」だけで使われていたと覚えています。 したがって、照応と判断できるかと思います。 # このメイルは議論を続けようというのではなくて、私の考えを # 記録しておこうという目的が主目的です。 # もちろん議論を続けてもいいですが。。。 関根 P.S. ところで、11月末に(半分)私用で一時帰国する可能性がでてきました。 (まだ、可能性ですが) もし時間があったら1、2時間話して、お昼でも 一緒にしませんか? 忙しければ、夜を空けられるかもしれません。 11月22日から12月4日くらいまでの御都合はどうですか? 木谷さんも 一緒にできたらいいですね。(木谷さんにはこの件メイルしていません。)  1, answered,, Summary-line: 5-Nov eriguchi@lit.rd.nttdata.c #[MAILER-DAEMON@mx0.nttdata.co.jp: Returned mail: Host unknown (Name server: lit.rd.nttdata.co.jp.: no data known)] Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id VAA11591 for ; Wed, 4 Nov 1998 21:05:25 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id VAA01188 for ; Wed, 4 Nov 1998 21:05:19 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id LAA26170 for ; Thu, 5 Nov 1998 11:05:16 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id LAA05460 for ; Thu, 5 Nov 1998 11:05:16 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id LAA01708 for ; Thu, 5 Nov 1998 11:05:13 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id LAA23649 for ; Thu, 5 Nov 1998 11:05:14 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA13790; Thu, 5 Nov 98 11:01:17 JST Date: Thu, 5 Nov 98 11:01:17 JST From: Yoshio Eriguchi Message-Id: <9811050201.AA13790@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 4 Nov 1998 09:51:08 -0500 (EST) <199811041451.JAA21796@noreen.cs.nyu.edu> Subject: [MAILER-DAEMON@mx0.nttdata.co.jp: Returned mail: Host unknown (Name server: lit.rd.nttdata.co.jp.: no data known)] Content-Type: text Content-Length: 1806 *** EOOH *** Date: Thu, 5 Nov 98 11:01:17 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 4 Nov 1998 09:51:08 -0500 (EST) <199811041451.JAA21796@noreen.cs.nyu.edu> Subject: [MAILER-DAEMON@mx0.nttdata.co.jp: Returned mail: Host unknown (Name server: lit.rd.nttdata.co.jp.: no data known)] Content-Type: text Content-Length: 1806 江里口です。 >こちらこそ、本当にありがとうございました。 >トレーニングデータにもタグ付けしようという提案も江里口さんから >でしたし、(それは非常に役に立つ事だと思いますし)本当に >ありがとうございました。御苦労様でした。 >本当に江里口さんがいてくださって助かりました。 お役に立てて幸いです。 >NTTデータがコンテストに参加して、江里口さんの助けが得られ >なかったらと思うと背筋が寒くなります。 > >本試験が終ったら慰安会でもしましょうね。 :-) そうですね。 でも、反省会になりそうで、ちょっと怖いですね。 > #私の頭のなかでは、クラスと商品名に境界線は崩壊しています。 > >はい。分ります。 >商品名を導入した福本さんに責任を取ってもらいたい所ですね。 :-) 福本さんがいないのは、痛いですね。 予備試験の後で、問題が生じたら福本さんにも頑張ってもらいましょうか。 ># このメイルは議論を続けようというのではなくて、私の考えを ># 記録しておこうという目的が主目的です。 ># もちろん議論を続けてもいいですが。。。 いくつか、本試験の3カ月前くらいまでには片付けたい問題がありますが、 あとで考えましょう。 >P.S. > >ところで、11月末に(半分)私用で一時帰国する可能性がでてきました。 >(まだ、可能性ですが) もし時間があったら1、2時間話して、お昼でも >一緒にしませんか? 忙しければ、夜を空けられるかもしれません。 >11月22日から12月4日くらいまでの御都合はどうですか? 木谷さんも >一緒にできたらいいですね。(木谷さんにはこの件メイルしていません。) 私は11月は大丈夫だと思います。木谷は今週不在なので、あとで聞いて おきます。 はっきり決まった時点で連絡をください。 -- Eriguchi  1,, Summary-line: 9-Nov eriguchi@lit.rd.nttdata.c #Visit Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id WAA12510 for ; Sun, 8 Nov 1998 22:51:13 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id WAA29102 for ; Sun, 8 Nov 1998 22:51:16 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id MAA09011 for ; Mon, 9 Nov 1998 12:51:15 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id MAA06523 for ; Mon, 9 Nov 1998 12:51:15 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id MAA05827 for ; Mon, 9 Nov 1998 12:51:12 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id MAA00895; Mon, 9 Nov 1998 12:51:13 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA00580; Mon, 9 Nov 98 12:47:08 JST Date: Mon, 9 Nov 98 12:47:08 JST From: Yoshio Eriguchi Message-Id: <9811090347.AA00580@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu Cc: tkitani@lit.rd.nttdata.co.jp In-Reply-To: Satoshi Sekine's message of Sun, 8 Nov 1998 11:57:57 -0500 (EST) <199811081657.LAA26223@noreen.cs.nyu.edu> Subject: Visit Content-Type: text Content-Length: 1169 *** EOOH *** Date: Mon, 9 Nov 98 12:47:08 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu Cc: tkitani@lit.rd.nttdata.co.jp In-Reply-To: Satoshi Sekine's message of Sun, 8 Nov 1998 11:57:57 -0500 (EST) <199811081657.LAA26223@noreen.cs.nyu.edu> Subject: Visit Content-Type: text Content-Length: 1169 江里口です。 >江里口さんには話してありますが、11月末に半分私用で帰国します。 >その際に、IREX関係で話しをしたいのですが、御都合いかがでしょうか。 >東京に滞在するのは、11月30日から12月2日までの3日間です。 > >特に江里口さんとはNEの残っている課題を話し合いたいのですが、 >これを中心課題としてIREXのミーティングとした方がいいか迷っています。 >何人かに、IREXのミーティングを開いた方がいいか聞いていますが、 >IRの方でも、ミーティングを開いた方がいいと思いますか? >特に議題がないのに集まってもらうのも面倒なので、どんなものか >意見を聞かせてもらえませんか? > >もしミーティングをするとしたらNTTデータで開く事は可能ですか? >今回は前回(36名)よりも参加者は少なくなると思います。 >木谷さん、江里口さんの御都合も含めて、お知らせください。 NTTデータで開くことは可能です。 我々の都合ですが、私の方は大丈夫です。 木谷のスケジュールは、12月は両日ともだめで、11月30日も かなり参加は難しいようです。 -- Eriguchi -- Eriguchi  1, filed, answered,, Summary-line: 9-Nov eriguchi@lit.rd.nttdata.c #Visit Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id GAA13613 for ; Mon, 9 Nov 1998 06:53:36 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id GAA02601 for ; Mon, 9 Nov 1998 06:53:27 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id UAA25241 for ; Mon, 9 Nov 1998 20:53:20 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id UAA20672 for ; Mon, 9 Nov 1998 20:53:20 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id UAA13286 for ; Mon, 9 Nov 1998 20:53:18 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id UAA05895 for ; Mon, 9 Nov 1998 20:53:19 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA02575; Mon, 9 Nov 98 20:49:12 JST Date: Mon, 9 Nov 98 20:49:12 JST From: Yoshio Eriguchi Message-Id: <9811091149.AA02575@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Sun, 8 Nov 1998 11:57:57 -0500 (EST) <199811081657.LAA26223@noreen.cs.nyu.edu> Subject: Visit Content-Type: text Content-Length: 1122 *** EOOH *** Date: Mon, 9 Nov 98 20:49:12 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Sun, 8 Nov 1998 11:57:57 -0500 (EST) <199811081657.LAA26223@noreen.cs.nyu.edu> Subject: Visit Content-Type: text Content-Length: 1122 江里口です。 >特に江里口さんとはNEの残っている課題を話し合いたいのですが、 >これを中心課題としてIREXのミーティングとした方がいいか迷っています。 予備試験で、文章が全くない記事(バスケットボールの試合結果)や 人名、組織名の羅列の記事(コンクールの入賞者)がありますが、 本試験でもやるつもりでしょうか? この記事を予備試験でやることにより、これらの記事に対応する作 り込みに参加者が走ってしまうのではという危惧があります。関根 さんとしては、新しい試みとして試してみたいのかもしれませんが、 トレーニングデータには全くないデータ形式を、いきなり予備し件 で使うと、本試験でもそのような可能性があるのではと、参加者に へんな不審感をかうような気がします。当然、予備試験なので、い ろいろ試すのはよいかとは思いますが、あまりにもいろいろなこと をすると、参加者が混乱するような気がします。 確かに、新聞記事全般を扱うといった場合には、このような記事も 対象となるのですが、文章の記事と、文章以外の記事くらいは分け たるくらいの設定をしておいた方が、よいような気がしてきました。 -- Eriguchi -- Eriguchi  1, filed,, Summary-line: 9-Nov eriguchi@lit.rd.nttdata. #Visit Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id OAA18202 for ; Mon, 9 Nov 1998 14:18:12 -0500 (EST) Received: from nonki.cs.nyu.edu (nonki.cs.nyu.edu [128.122.140.99]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id OAA09170 for ; Mon, 9 Nov 1998 14:18:17 -0500 (EST) Received: (from sekine@localhost) by nonki.cs.nyu.edu (8.9.1/8.9.1) id OAA01490; Mon, 9 Nov 1998 14:18:21 -0500 (EST) Date: Mon, 9 Nov 1998 14:18:21 -0500 (EST) From: Satoshi Sekine Message-Id: <199811091918.OAA01490@nonki.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Mon, 9 Nov 98 20:49:12 JST <9811091149.AA02575@pittsburgh.lit.rd.nttdata.co.jp> Subject: Visit Content-Type: text Content-Length: 268 *** EOOH *** Date: Mon, 9 Nov 1998 14:18:21 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Mon, 9 Nov 98 20:49:12 JST <9811091149.AA02575@pittsburgh.lit.rd.nttdata.co.jp> Subject: Visit Content-Type: text Content-Length: 268 そうですね。記事の種類に関する意見賛成します。 選ぶ時にもどうしたものかと悩んでいました。 他の記事でほじゅうする事は可能ですかね。 数記事なので、(できるだけ)今日中に選んで送ります。 どうぞよろしくお願いします。 関根  1, answered, filed,, Summary-line: 10-Nov eriguchi@lit.rd.nttdata.c #Visit Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id UAA21124 for ; Mon, 9 Nov 1998 20:02:58 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id UAA16394 for ; Mon, 9 Nov 1998 20:03:02 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id KAA26152 for ; Tue, 10 Nov 1998 10:03:02 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id KAA26623 for ; Tue, 10 Nov 1998 10:03:02 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id KAA16797 for ; Tue, 10 Nov 1998 10:02:59 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id KAA10350 for ; Tue, 10 Nov 1998 10:03:00 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA05123; Tue, 10 Nov 98 09:58:53 JST Date: Tue, 10 Nov 98 09:58:53 JST From: Yoshio Eriguchi Message-Id: <9811100058.AA05123@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Mon, 9 Nov 1998 14:18:21 -0500 (EST) <199811091918.OAA01490@nonki.cs.nyu.edu> Subject: Visit Content-Type: text Content-Length: 410 *** EOOH *** Date: Tue, 10 Nov 98 09:58:53 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Mon, 9 Nov 1998 14:18:21 -0500 (EST) <199811091918.OAA01490@nonki.cs.nyu.edu> Subject: Visit Content-Type: text Content-Length: 410 江里口です。 >そうですね。記事の種類に関する意見賛成します。 >選ぶ時にもどうしたものかと悩んでいました。 > >他の記事でほじゅうする事は可能ですかね。 >数記事なので、(できるだけ)今日中に選んで送ります。 >どうぞよろしくお願いします。 予備試験直前に無理をいってすみませんでした。 他の記事で補充するのは可能だと思います。 -- Eriguchi  1, filed,, Summary-line: 9-Nov eriguchi@lit.rd.nttdata. #Visit Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id VAA21472 for ; Mon, 9 Nov 1998 21:12:47 -0500 (EST) Received: from nonki.cs.nyu.edu (nonki.cs.nyu.edu [128.122.140.99]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id VAA16952 for ; Mon, 9 Nov 1998 21:12:53 -0500 (EST) Received: (from sekine@localhost) by nonki.cs.nyu.edu (8.9.1/8.9.1) id VAA01677; Mon, 9 Nov 1998 21:12:55 -0500 (EST) Date: Mon, 9 Nov 1998 21:12:55 -0500 (EST) From: Satoshi Sekine Message-Id: <199811100212.VAA01677@nonki.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Tue, 10 Nov 98 09:58:53 JST <9811100058.AA05123@pittsburgh.lit.rd.nttdata.co.jp> Subject: Visit Content-Type: text Content-Length: 219 *** EOOH *** Date: Mon, 9 Nov 1998 21:12:55 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Tue, 10 Nov 98 09:58:53 JST <9811100058.AA05123@pittsburgh.lit.rd.nttdata.co.jp> Subject: Visit Content-Type: text Content-Length: 219 chotto mendou nanode, ika no kiji wo sakujo shite zenbude 36 kiji to suru koto ni shitaito omoimasu. 940911080 940911086 940911092 940911106 ongaku konku-ru no kiji ha, toku ni kezuranakutemo iito omoimasu. Sekine  1, filed,, Summary-line: 10-Nov eriguchi@lit.rd.nttdata.c #NE (Dry Run) Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id XAA22312 for ; Mon, 9 Nov 1998 23:52:23 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id XAA18527 for ; Mon, 9 Nov 1998 23:52:27 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id NAA19186 for ; Tue, 10 Nov 1998 13:52:27 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id NAA22240 for ; Tue, 10 Nov 1998 13:52:27 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id NAA21274 for ; Tue, 10 Nov 1998 13:52:24 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id NAA12558 for ; Tue, 10 Nov 1998 13:52:25 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA05975; Tue, 10 Nov 98 13:48:18 JST Date: Tue, 10 Nov 98 13:48:18 JST From: Yoshio Eriguchi Message-Id: <9811100448.AA05975@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Mon, 9 Nov 1998 21:12:55 -0500 (EST) <199811100212.VAA01677@nonki.cs.nyu.edu> Subject: NE (Dry Run) Content-Type: text Content-Length: 444 *** EOOH *** Date: Tue, 10 Nov 98 13:48:18 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Mon, 9 Nov 1998 21:12:55 -0500 (EST) <199811100212.VAA01677@nonki.cs.nyu.edu> Subject: NE (Dry Run) Content-Type: text Content-Length: 444 江里口です。 >chotto mendou nanode, ika no kiji wo sakujo shite zenbude 36 kiji to >suru koto ni shitaito omoimasu. > >940911080 >940911086 >940911092 >940911106 > >ongaku konku-ru no kiji ha, toku ni kezuranakutemo iito omoimasu. 了解しました。 音楽コンクールの記事の扱いは迷いますが、確かに採用してもいい気がします。 音楽コンクールの是非は、予備試験での反応に任せましょう。 -- Eriguchi  1,, Summary-line: 13-Nov eriguchi@lit.rd.nttdata. #NE discusion Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id NAA04943 for ; Fri, 13 Nov 1998 13:19:32 -0500 (EST) Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id NAA13126 for ; Fri, 13 Nov 1998 13:19:42 -0500 (EST) Received: (from sekine@localhost) by noreen.cs.nyu.edu (8.9.1/8.9.1) id NAA02182; Fri, 13 Nov 1998 13:19:39 -0500 (EST) Date: Fri, 13 Nov 1998 13:19:39 -0500 (EST) From: Satoshi Sekine Message-Id: <199811131819.NAA02182@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu Subject: NE discusion Content-Type: text Content-Length: 4703 *** EOOH *** Date: Fri, 13 Nov 1998 13:19:39 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu Subject: NE discusion Content-Type: text Content-Length: 4703 江里口さん: 今度のミーティングで使う議案の最初のバージョンを作りました。 まだ説明など不十分ですが、時間があったら適当に加筆してください。 私は22日にこちらを立ちますので、来週まで話しはできます。 (それ以降もメイルはチェックしますが、長い返事は無理だと思います) 関根 ------------------ * 複合名詞中の固有表現の扱い オーデコロン 江戸っ子 フランス人形 漢字 アメリカンコーヒー 文相 --江里口提案----------------------------- 「普通名詞化している」「慣用表現となっている」という判断基準を次のよ うな順序で判断するのはどうでしょうか? ・広辞苑に項目名にあがっていた場合はひとまとまりの語と判断する。 ・ABという名詞連続が「AのB」で言い替えられるときは、ひとまとまり の語としない。 言い替えた場合に別の意味になる場合は、ひとまとまりの語 ・日本語では地名でないものは地名としない。(ウィナー、アメリカン、ナ ポリタンなど) ・上記の条件に適合しても、他と矛盾がある場合、あるいは揺れがあるもの はOPTIONALにする。 ここは、正解作成者の判断にまかせる。 野口さんの例を広辞苑で辞書びきすると、次のようになります。 ◎広辞苑に載っているもの フランス料理,パリジェンヌ,江戸っ子,京女,東男,瀬戸物,唐きび (唐黍),五 右衛門風呂,川崎病,ハンセン氏病 (ハンセン病で記載),漢字,英語, ロイド眼鏡(ロイドがセルロイドからという語源説もあり), オーデ・コロン などが ◎載っていないもの フランス人形, アメリカンコーヒー (アメリカンという項目に、アメリカンコーヒーの略と はありましたが..) ------------------------------- 米軍機 衆参議長 労働党委員 沖電気関西研究所長 来日 訪米 訪韓 在米 在エジプト 博多人形 鈴木家 メディチ家 フィリピン人 在韓米軍ヘリコピター 米軍立川基地 在ナイジェリア日本大使館 (正式名称) イスラエル建国記念日 ニュージーランド国会 韓国三星 * 肩書きと一体化した名称 清少納言 虞美人 * 肩書きのみで、特定の個人を指す 天皇 ダライラマ ローマ法王 * 固有名とクラス 魚沼産コシヒカリ 新潟産コシヒカリ * 普通名詞が固有の物を指す場合 総務部 -------------------- (1) NTT総務部長 (2) ○○はNTTに入社、総務部に配属。 (3) ○○はNTTに入社。...総務部時代には、.... (4) 各社の総務部が集まって.... ◎新聞記事の特有の表現:[最後の出展を表す部署、支社名] (5) ......。 (社会部) (6) ......。 (ローマ支局) -------------------- # 「文脈(意味)か字面か(表記)?」の項を参照の事 * 仮名 仮名:田中太郎氏 * 名称とその内容が明確に一致せず、固有名としてよいか分らない場合 ONUMOZ(国連モザンピーク活動) タグなし UNAVEM2(第2次国連アンゴラ監視団) * 地名の概略表現 首都圏 北極圏 大阪圏内 九州北部 南九州 環太平洋 --江里口・竹元提案----------- 概略的表現は地名表現に入れないことを原則にしつつ、分割することにより 指している場所が変わる名称は、その概略的表現も含める ----------------------------- * 法律・条約等の範囲 法案 活動方針 米国の最恵国待遇 上海コミュニケ * 株は商品名か NTT株 * 並列的表現 コロンビア、ハーバード、ケンブリッジ各大 社会、民社両党 ---江里口案-------- 3.1.Cの定義文の、分割すると違った意味になるには該当せず、 他に、分割する理由づけをされていないため分割しない。 ------------------- * サービス名 MMF ひかり123号 PL保険 * 「特定の時」の解釈 一般的に人が知っている特定の時のみにするか 特定である事は知っていても、それがいつだかは一般には知られていない ような物も特定の時とするか? ロンドンの小学校の夏休み 山岸連合時代 * 文脈(意味)か字面か(表記)? = 固有名詞とは何か? = 井佐原さんがオフィスで使用している椅子 NTT本社の総務部 トヨタのカローラ さくら銀行の福岡支店 ニュージーランドの国会 ニューヨークの自由の女神 ニューヨーク大学の関根聡 において 「椅子」「総務部」「カローラ」「福岡支店」「国会」「自由の女神」「関根聡」は 文脈上では、すべて、世界にひとつしかない固有の物を指していると考えられる。 どこが違うのか?  1,, Summary-line: 17-Nov eriguchi@lit.rd.nttdata. #NE discusion Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id QAA06398 for ; Tue, 17 Nov 1998 16:28:45 -0500 (EST) Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id QAA24530 for ; Tue, 17 Nov 1998 16:29:02 -0500 (EST) Received: (from sekine@localhost) by noreen.cs.nyu.edu (8.9.1/8.9.1) id QAA07452; Tue, 17 Nov 1998 16:28:50 -0500 (EST) Date: Tue, 17 Nov 1998 16:28:50 -0500 (EST) From: Satoshi Sekine Message-Id: <199811172128.QAA07452@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Mon, 16 Nov 98 15:56:30 JST <9811160656.AA01962@pittsburgh.lit.rd.nttdata.co.jp> Subject: NE discusion Content-Type: text Content-Length: 12187 *** EOOH *** Date: Tue, 17 Nov 1998 16:28:50 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Mon, 16 Nov 98 15:56:30 JST <9811160656.AA01962@pittsburgh.lit.rd.nttdata.co.jp> Subject: NE discusion Content-Type: text Content-Length: 12187 どうもありがとうございます。 次回のIREXではやっぱり、課題毎に責任者を決めて やった方がいいようです。二足の草鞋は大変です。 でも、そうなると、やってくれる人に負担がかかるしな。。 とにかく、@で始まる行がコメントです。 変更の提案も、その中に書きます。 ---------- 議題 1. この時期に定義を変えることが許されるか否か。 これが否決されると、定義の解釈についての論議のみになり、 定義の変更まで考えた議事項目は論議する必要がなくなります。 2. 対象とする記事データの確認 文章を含まない記事の扱い。 ・人事情報等の、リスト形式のもの。 ・スポーツの試合結果 3. 各定義についての変更、解釈の仕方 * 3.1.3.A の組織前の国名の扱い ----------- 江里口提案 ------------------------------------- * 組織名の前につく国名(地名)は、国名と組織名とには分けずまとめて 一つの組織名として扱う。 理由: ・「英国議会」「ニュージーランド国会」など分割すると、組織名が 普通名詞になるため、後述の「普通名詞が固有の物を指す場合」の決定 結果によっては、組織名と抽出することがなくなる。 ・正式名称か否かを見分ける手段がない。(それを調べる気が、私にはない) ・組織名+組織名をひとまとめにするの今の定義であれば、正式名称を 抽出するという意義は薄れている。 ----------------------------------------------------------- @ 例があった方がいいですよね? 僕は書いていませんでしたっけ? @ @ 日本鋼管 @ 日本IBM @ 独フォルクスワーゲン社 @ 米アメリカン航空 @ アメリカ国防省 @ 米国防省 * 複合名詞中の固有表現の扱い オーデコロン 江戸っ子 フランス人形 漢字 アメリカンコーヒー 文相 -----------------江里口提案----------------------------- 「普通名詞化している」「慣用表現となっている」という判断基準を次のよ うな順序で判断するのはどうでしょうか? ・広辞苑に項目名にあがっていた場合はひとまとまりの語と判断する。 ・ABという名詞連続が「AのB」で言い替えられるときは、ひとまとまり の語としない。 言い替えた場合に別の意味になる場合は、ひとまとまりの語 ・日本語では地名でないものは地名としない。(ウィナー、アメリカン、ナ ポリタンなど) ・上記の条件に適合しても、他と矛盾がある場合、あるいは揺れがあるもの はOPTIONALにする。 ここは、正解作成者の判断にまかせる。 野口さんの例を広辞苑で辞書びきすると、次のようになります。 ◎広辞苑に載っているもの フランス料理,パリジェンヌ,江戸っ子,京女,東男,瀬戸物,唐きび (唐黍),五 右衛門風呂,川崎病,ハンセン氏病 (ハンセン病で記載),漢字,英語, ロイド眼鏡(ロイドがセルロイドからという語源説もあり), オーデ・コロン などが ◎載っていないもの フランス人形, アメリカンコーヒー (アメリカンという項目に、アメリカンコーヒーの略と はありましたが..) ------------------------------------------------------------------ #これ以降の羅列は、何を意図しているんでしょうか? #説明不足でわかりません。 @ その他複合語の例です。上記の説明は、上にある例では上手くいく @ ように思えるのですが、下のような例が出た時に悩みました。 米軍機 衆参議長 労働党委員 沖電気関西研究所長 来日 訪米 訪韓 在米 在エジプト 博多人形 鈴木家 メディチ家 フィリピン人 在韓米軍ヘリコピター 米軍立川基地 在ナイジェリア日本大使館 (正式名称) イスラエル建国記念日 ニュージーランド国会 韓国三星 * 肩書きと一体化した名称 清少納言 虞美人 * 肩書きのみで、特定の個人を指す 天皇 ダライラマ ローマ法王 * 固有名とクラス 魚沼産コシヒカリ 新潟産コシヒカリ * 普通名詞が固有の物を指す場合 総務部 -------------------- (1) NTT総務部長 (2) ○○はNTTに入社、総務部に配属。 (3) ○○はNTTに入社。...総務部時代には、.... (4) 各社の総務部が集まって.... ◎新聞記事の特有の表現:[最後の出展を表す部署、支社名] (5) ......。 (社会部) (6) ......。 (ローマ支局) -------------------- # 「文脈(意味)か字面か(表記)?」の項を参照の事 * 仮名 仮名:田中太郎氏 「A子」、「B氏」という仮名に対する対応と、 「田中太郎氏(仮名)」という両者の扱いを考えた定義であること。 「田中太郎氏(仮名)が、.....。田中氏は......」という文書があった 時についての処置まで検討する必要があります。 * 名称とその内容が明確に一致せず、固有名としてよいか分らない場合 ONUMOZ(国連モザンピーク活動) タグなし UNAVEM2(第2次国連アンゴラ監視団) * 地名の概略表現 首都圏 北極圏 大阪圏内 九州北部 南九州 環太平洋 --江里口・竹元提案----------- 概略的表現は地名表現に入れないことを原則にしつつ、分割することにより 指している場所が変わる名称は、その概略的表現も含める 具体的には「の」を間に入り、概略的表現を修飾することが可能であれば、 概略的表現は含めない。そうでない場合は含める。 #「概略的表現」という言葉の使い方があっているかどうかあやしいですけど。 上記の例にたいしては、 首都圏 首都の圏とはいえない。首都と首都圏は別の場所 ※ただし、首都を地名ととらない場合は首都圏も 地名とならない。 北極圏 北極の圏とはいえない。北極と北極圏は別の場所 大阪圏内 大阪圏の内といえ、内を大阪圏が修飾している 九州北部 九州の北部といえ、北部を九州が修飾している 南九州 南の九州とはいえない。南九州と九州は別の場所 環太平洋 環の太平洋とはいないい。環太平洋と太平洋は別の場所。 ----------------------------- * 法律・条約等の範囲 法案 活動方針 米国の最恵国待遇 上海コミュニケ #上海コミュケは、別に問題ではない気がするんですが。あれは単に私が #そういうものの存在を知らなかっただけです。 @ まあ例ですから。 * 株は商品名か NTT株 ------------- 江里口案 -------------------------------------------- 株は固有物名にしないという例外の定義を作る or 株が後についた場合のみ株として扱い、それ以外は組織名と考える。 という例外的な定義をつくる。 [理由] 株式蘭の企業名は株を指すか、企業名を指すか人間にも判断できない ものがあるため、株は固有物名にしないという例外の定義を作る方が 混乱が少なくなる。 例)[株価]日本テレコム低迷続きそう NTTの株価 ------------------------------------------------------------------ * 並列的表現 コロンビア、ハーバード、ケンブリッジ各大 社会、民社両党 ---江里口案-------- #先に関根さんがこのようなタグつけを主張してるんですが。。。 @ これは主張するというより解釈の確認です。 定義を変えることが不可であるならば、 3.1.Cの定義文の、分割すると違った意味になるには該当せず、 他に、分割する理由づけをされていないため分割しない。 定義を変えることが可能であれば、これをうまく理由づけする定義を 作り、それぞれを組織名にしたい。しかしながらうまい定義は現在 なし。 ------------------- * サービス名 MMF ひかり123号 PL保険 * 「特定の時」の解釈 一般的に人が知っている特定の時のみにするか 特定である事は知っていても、それがいつだかは一般には知られていない ような物も特定の時とするか? ロンドンの小学校の夏休み 山岸連合時代 #ロンドンの小学校の夏休みというのは、特定されていない気がして、 #この議題の例として不適切です。どこまでが時の表現という新しい #問題を含んではいますが。 @ では「西暦10年冬至」というのはどうでしょうか? 1. 特定の時の定義を明確にする。 -------------------------------------------------------------- 江里口案 特定とは、誰もがいつなのか分かる表現で、周期性がある場合の表現も 抽出する。基本的に5W1Hに使える表現を抽出することを目的とする。 したがって、特定の年の春休みでなくても、春休みといえば無条件に 時の表現にする。また、「毎日」、「毎朝」、「毎年」というのも 時間表現とする。 #現行の定義では、「毎年」とか「春休み」がどうなるのかというのは、 #どちらか不明のままです。おそらく関根さんの頭の中にはMETの定義が #残っていると思いますが、参加者はMETのことは知りません。 @ そうですね。「毎」については、「当」も取っていないという事もあり、 @ ちょっと気持悪いですね。「毎年」を取るのに「当日」はなぜ取らないか @ という説明がかなり人工的になりそうなので。 「山岸連合時代」は、誰もがいつか分かるかという点において、時の表 現として相応しくない。「徳川時代」とはこの点で大きく異る。 -------------------------------------------------------------- * 文脈(意味)か字面か(表記)? = 固有名詞とは何か? = #固有名詞とはなにかという問題にすると、発散してしまうと思います。 #やるのは構いませんが、それなりの覚悟と、てぎわのよい議事進行を #しないと躊躇半端に発散したままで終ると思います。 @ これは昼食時に例の論文のためにガヤガヤと話せればと思っています。 @ 時間があれば、ミーティングの中でやってもいいだろうし。 @ 以下の例は論文のために考えていたものです。「椅子」はどうか @ 替えた方がいいでしょうか?でもARTIFACTではないですか? @ コクヨのChair1005がARTIFACTなら。 井佐原さんがオフィスで使用している椅子 NTT本社の総務部 トヨタのカローラ さくら銀行の福岡支店 ニュージーランドの国会 ニューヨークの自由の女神 ニューヨーク大学の関根聡 において 「椅子」「総務部」「カローラ」「福岡支店」「国会」「自由の女神」「関根聡」は 文脈上では、すべて、世界にひとつしかない固有の物を指していると考えられる。 どこが違うのか? #全て特定できるという点では固有でありどこも違いません。 #抽出対象項目のものは、特別な理由がない限り、全部とる(文脈)か #全部とらない(字面)で統一すべきです。 @ この中に線を引こうというのが固有表現抽出のひとつの意味なのでは @ ないでしょうか? 一般名詞でその文脈も考えるとなるとなると @ 今の所、システムでは立ち打ちできないですよね。 #したがって、文脈優先であれば、総務部, カローラ, #福岡支店, 国会, 自由の女神, #関根聡にするのがてきとうでしょう。(椅子は該当項目なし) #最も、「自由の女神」は作品名に該当すると考える場合です。 #だから、前からいっているように(ロンドン支局)を抽出するなら(総務部)も #抽出する、そうでないなら両方とらないと主張しています。 #関根さんの主張する、ロンドン支局は抽出、総務部は抽出しないという主張に #したいのであれば、それなりの理由を作る必要があります。 #(最も両方とらない場合は、ロンドン支局になるんですが。) @ 私の線引きの基準は固有名詞が含まれる、または、それ自体が固有表現で @ あるという事です。「国会」のようなものは2番目の説明で逃げたいの @ ですが、それが「固有名詞とは?」という疑問のきっかけです。 英語だと国会も憲法もCapitalizeされて固有名詞のようなのですけどね。 関根  1, answered,, Summary-line: 16-Nov eriguchi@lit.rd.nttdata.c #NE discusion Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id BAA20012 for ; Mon, 16 Nov 1998 01:55:11 -0500 (EST) Received: from ms.nttdata.co.jp (ms1.nttdata.co.jp [163.135.193.232]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id BAA22693 for ; Mon, 16 Nov 1998 01:55:20 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id PAA03652 for ; Mon, 16 Nov 1998 15:55:18 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id PAA26718 for ; Mon, 16 Nov 1998 15:55:18 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id PAA19158 for ; Mon, 16 Nov 1998 15:55:15 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id PAA00658 for ; Mon, 16 Nov 1998 15:55:16 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA01962; Mon, 16 Nov 98 15:56:30 JST Date: Mon, 16 Nov 98 15:56:30 JST From: Yoshio Eriguchi Message-Id: <9811160656.AA01962@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Fri, 13 Nov 1998 13:19:39 -0500 (EST) <199811131819.NAA02182@noreen.cs.nyu.edu> Subject: NE discusion Content-Type: text Content-Length: 10466 *** EOOH *** Date: Mon, 16 Nov 98 15:56:30 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Fri, 13 Nov 1998 13:19:39 -0500 (EST) <199811131819.NAA02182@noreen.cs.nyu.edu> Subject: NE discusion Content-Type: text Content-Length: 10466 江里口です。 >今度のミーティングで使う議案の最初のバージョンを作りました。 >まだ説明など不十分ですが、時間があったら適当に加筆してください。 >私は22日にこちらを立ちますので、来週まで話しはできます。 >(それ以降もメイルはチェックしますが、長い返事は無理だと思います) いくつか加筆しました。 「#」以降の行はは関根さんに対する、質問、意見等で、 公にする目的のものではありません。 したがっって、皆さんには公開しないでほしいです。 江里口提案という項目がいくつかありますが、関根提案というのはないの でしょうか? 複合名詞中の固有表現の扱いについては、現行の定義とは ちがう関根さんの定義がありますが。 以下、議題案です。 議題 1. この時期に定義を変えることが許されるか否か。 これが否決されると、定義の解釈についての論議のみになり、 定義の変更まで考えた議事項目は論議する必要がなくなります。 2. 対象とする記事データの確認 文章を含まない記事の扱い。 ・人事情報等の、リスト形式のもの。 ・スポーツの試合結果 3. 各定義についての変更、解釈の仕方 * 3.1.3.A の組織前の国名の扱い ----------- 江里口提案 ------------------------------------- * 組織名の前につく国名(地名)は、国名と組織名とには分けずまとめて 一つの組織名として扱う。 理由: ・「英国議会」「ニュージーランド国会」など分割すると、組織名が 普通名詞になるため、後述の「普通名詞が固有の物を指す場合」の決定 結果によっては、組織名と抽出することがなくなる。 ・正式名称か否かを見分ける手段がない。(それを調べる気が、私にはない) ・組織名+組織名をひとまとめにするの今の定義であれば、正式名称を 抽出するという意義は薄れている。 ----------------------------------------------------------- * 複合名詞中の固有表現の扱い オーデコロン 江戸っ子 フランス人形 漢字 アメリカンコーヒー 文相 -----------------江里口提案----------------------------- 「普通名詞化している」「慣用表現となっている」という判断基準を次のよ うな順序で判断するのはどうでしょうか? ・広辞苑に項目名にあがっていた場合はひとまとまりの語と判断する。 ・ABという名詞連続が「AのB」で言い替えられるときは、ひとまとまり の語としない。 言い替えた場合に別の意味になる場合は、ひとまとまりの語 ・日本語では地名でないものは地名としない。(ウィナー、アメリカン、ナ ポリタンなど) ・上記の条件に適合しても、他と矛盾がある場合、あるいは揺れがあるもの はOPTIONALにする。 ここは、正解作成者の判断にまかせる。 野口さんの例を広辞苑で辞書びきすると、次のようになります。 ◎広辞苑に載っているもの フランス料理,パリジェンヌ,江戸っ子,京女,東男,瀬戸物,唐きび (唐黍),五 右衛門風呂,川崎病,ハンセン氏病 (ハンセン病で記載),漢字,英語, ロイド眼鏡(ロイドがセルロイドからという語源説もあり), オーデ・コロン などが ◎載っていないもの フランス人形, アメリカンコーヒー (アメリカンという項目に、アメリカンコーヒーの略と はありましたが..) ------------------------------------------------------------------ #これ以降の羅列は、何を意図しているんでしょうか? #説明不足でわかりません。 米軍機 衆参議長 労働党委員 沖電気関西研究所長 来日 訪米 訪韓 在米 在エジプト 博多人形 鈴木家 メディチ家 フィリピン人 在韓米軍ヘリコピター 米軍立川基地 在ナイジェリア日本大使館 (正式名称) イスラエル建国記念日 ニュージーランド国会 韓国三星 * 肩書きと一体化した名称 清少納言 虞美人 * 肩書きのみで、特定の個人を指す 天皇 ダライラマ ローマ法王 * 固有名とクラス 魚沼産コシヒカリ 新潟産コシヒカリ * 普通名詞が固有の物を指す場合 総務部 -------------------- (1) NTT総務部長 (2) ○○はNTTに入社、総務部に配属。 (3) ○○はNTTに入社。...総務部時代には、.... (4) 各社の総務部が集まって.... ◎新聞記事の特有の表現:[最後の出展を表す部署、支社名] (5) ......。 (社会部) (6) ......。 (ローマ支局) -------------------- # 「文脈(意味)か字面か(表記)?」の項を参照の事 * 仮名 仮名:田中太郎氏 「A子」、「B氏」という仮名に対する対応と、 「田中太郎氏(仮名)」という両者の扱いを考えた定義であること。 「田中太郎氏(仮名)が、.....。田中氏は......」という文書があった 時についての処置まで検討する必要があります。 * 名称とその内容が明確に一致せず、固有名としてよいか分らない場合 ONUMOZ(国連モザンピーク活動) タグなし UNAVEM2(第2次国連アンゴラ監視団) * 地名の概略表現 首都圏 北極圏 大阪圏内 九州北部 南九州 環太平洋 --江里口・竹元提案----------- 概略的表現は地名表現に入れないことを原則にしつつ、分割することにより 指している場所が変わる名称は、その概略的表現も含める 具体的には「の」を間に入り、概略的表現を修飾することが可能であれば、 概略的表現は含めない。そうでない場合は含める。 #「概略的表現」という言葉の使い方があっているかどうかあやしいですけど。 上記の例にたいしては、 首都圏 首都の圏とはいえない。首都と首都圏は別の場所 ※ただし、首都を地名ととらない場合は首都圏も 地名とならない。 北極圏 北極の圏とはいえない。北極と北極圏は別の場所 大阪圏内 大阪圏の内といえ、内を大阪圏が修飾している 九州北部 九州の北部といえ、北部を九州が修飾している 南九州 南の九州とはいえない。南九州と九州は別の場所 環太平洋 環の太平洋とはいないい。環太平洋と太平洋は別の場所。 ----------------------------- * 法律・条約等の範囲 法案 活動方針 米国の最恵国待遇 上海コミュニケ #上海コミュケは、別に問題ではない気がするんですが。あれは単に私が #そういうものの存在を知らなかっただけです。 * 株は商品名か NTT株 ------------- 江里口案 -------------------------------------------- 株は固有物名にしないという例外の定義を作る or 株が後についた場合のみ株として扱い、それ以外は組織名と考える。 という例外的な定義をつくる。 [理由] 株式蘭の企業名は株を指すか、企業名を指すか人間にも判断できない ものがあるため、株は固有物名にしないという例外の定義を作る方が 混乱が少なくなる。 例)[株価]日本テレコム低迷続きそう NTTの株価 ------------------------------------------------------------------ * 並列的表現 コロンビア、ハーバード、ケンブリッジ各大 社会、民社両党 ---江里口案-------- #先に関根さんがこのようなタグつけを主張してるんですが。。。 定義を変えることが不可であるならば、 3.1.Cの定義文の、分割すると違った意味になるには該当せず、 他に、分割する理由づけをされていないため分割しない。 定義を変えることが可能であれば、これをうまく理由づけする定義を 作り、それぞれを組織名にしたい。しかしながらうまい定義は現在 なし。 ------------------- * サービス名 MMF ひかり123号 PL保険 * 「特定の時」の解釈 一般的に人が知っている特定の時のみにするか 特定である事は知っていても、それがいつだかは一般には知られていない ような物も特定の時とするか? ロンドンの小学校の夏休み 山岸連合時代 #ロンドンの小学校の夏休みというのは、特定されていない気がして、 #この議題の例として不適切です。どこまでが時の表現という新しい #問題を含んではいますが。 1. 特定の時の定義を明確にする。 -------------------------------------------------------------- 江里口案 特定とは、誰もがいつなのか分かる表現で、周期性がある場合の表現も 抽出する。基本的に5W1Hに使える表現を抽出することを目的とする。 したがって、特定の年の春休みでなくても、春休みといえば無条件に 時の表現にする。また、「毎日」、「毎朝」、「毎年」というのも 時間表現とする。 #現行の定義では、「毎年」とか「春休み」がどうなるのかというのは、 #どちらか不明のままです。おそらく関根さんの頭の中にはMETの定義が #残っていると思いますが、参加者はMETのことは知りません。 「山岸連合時代」は、誰もがいつか分かるかという点において、時の表 現として相応しくない。「徳川時代」とはこの点で大きく異る。 -------------------------------------------------------------- * 文脈(意味)か字面か(表記)? = 固有名詞とは何か? = #固有名詞とはなにかという問題にすると、発散してしまうと思います。 #やるのは構いませんが、それなりの覚悟と、てぎわのよい議事進行を #しないと躊躇半端に発散したままで終ると思います。 井佐原さんがオフィスで使用している椅子 NTT本社の総務部 トヨタのカローラ さくら銀行の福岡支店 ニュージーランドの国会 ニューヨークの自由の女神 ニューヨーク大学の関根聡 において 「椅子」「総務部」「カローラ」「福岡支店」「国会」「自由の女神」「関根聡」は 文脈上では、すべて、世界にひとつしかない固有の物を指していると考えられる。 どこが違うのか? #全て特定できるという点では固有でありどこも違いません。 #抽出対象項目のものは、特別な理由がない限り、全部とる(文脈)か #全部とらない(字面)で統一すべきです。 #したがって、文脈優先であれば、総務部, カローラ, #福岡支店, 国会, 自由の女神, #関根聡にするのがてきとうでしょう。(椅子は該当項目なし) #最も、「自由の女神」は作品名に該当すると考える場合です。 #だから、前からいっているように(ロンドン支局)を抽出するなら(総務部)も #抽出する、そうでないなら両方とらないと主張しています。 #関根さんの主張する、ロンドン支局は抽出、総務部は抽出しないという主張に #したいのであれば、それなりの理由を作る必要があります。 #(最も両方とらない場合は、ロンドン支局になるんですが。) -- Eriguchi  1, answered,, Summary-line: 18-Nov eriguchi@lit.rd.nttdata.c #NE discusion No.1 Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id BAA10747 for ; Wed, 18 Nov 1998 01:26:26 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id BAA03971 for ; Wed, 18 Nov 1998 01:26:42 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id PAA16047 for ; Wed, 18 Nov 1998 15:26:40 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id PAA04437 for ; Wed, 18 Nov 1998 15:26:40 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id PAA19244 for ; Wed, 18 Nov 1998 15:26:37 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id PAA24254; Wed, 18 Nov 1998 15:26:38 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA12011; Wed, 18 Nov 98 15:27:48 JST Date: Wed, 18 Nov 98 15:27:48 JST From: Yoshio Eriguchi Message-Id: <9811180627.AA12011@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Tue, 17 Nov 1998 16:28:50 -0500 (EST) <199811172128.QAA07452@noreen.cs.nyu.edu> Subject: NE discusion No.1 Content-Type: text Content-Length: 14732 *** EOOH *** Date: Wed, 18 Nov 98 15:27:48 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Tue, 17 Nov 1998 16:28:50 -0500 (EST) <199811172128.QAA07452@noreen.cs.nyu.edu> Subject: NE discusion No.1 Content-Type: text Content-Length: 14732 江里口です。 > 次回のIREXではやっぱり、課題毎に責任者を決めて > やった方がいいようです。二足の草鞋は大変です。 やはり、両方を全て一人でやるというのは大変ですよね。 お疲れさまです。 > でも、そうなると、やってくれる人に負担がかかるしな。。 最初はやってくれる人を探すのが難しいですよね。 #私も、単独では引き受けることはできなかったと思いますし。。。 以下は、議題についての修正です。 前回、私が加筆を加えたところも、一部修正があると思います。 「%」は、議題案に追加したい部分です。 ---------- 議題 1. この時期に定義を変えることが許されるか否か。 これが否決されると、定義の解釈についての論議のみになり、 定義の変更まで考えた議事項目は論議する必要がなくなります。 2. 対象とする記事データの確認 文章を含まない記事の扱い ・人事情報等の、リスト形式のもの ・スポーツの試合結果 3. 各定義についての変更、解釈の仕方 * 「3.1.3.A の組織前の国名」の変更 ----------- 江里口提案 ------------------------------------- 組織名の前につく国名(地名)は、国名と組織名とには分けずまとめて 一つの組織名として扱う。 理由: ・「英国議会」「ニュージーランド国会」など分割すると、組織名が 普通名詞になるため、後述の「普通名詞が固有の物を指す場合」の決定 結果によっては、組織名と抽出することがなくなる。 ・正式名称か否かを見分ける手段がない、あるいは、面倒。 # それを調べる気が、私にはない ・組織名+組織名をひとまとめにするの今の定義であれば、正式名称を 抽出するという意義は薄れている。 ----------------------------------------------------------- @ 例があった方がいいですよね? 僕は書いていませんでしたっけ? # そうですね。例を入れましょう。「@」を消しました。 日本鋼管 日本IBM 独フォルクスワーゲン社 米アメリカン航空 アメリカ国防省 米国防省 % ・本定義を変えた時に派生する問題 % 在ナイジェリア日本大使館 % 在韓米軍 % ベルリン駐在北朝鮮利益代表部 * 複合名詞中の固有表現の扱い オーデコロン 江戸っ子 フランス人形 漢字 アメリカンコーヒー 文相 -----------------江里口提案----------------------------- 「普通名詞化している」「慣用表現となっている」という判断基準を次のよ うな順序で判断するのはどうでしょうか? ・広辞苑に項目名にあがっていた場合はひとまとまりの語と判断する。 ・ABという名詞連続が「AのB」で言い替えられるときは、ひとまとまり の語としない。 言い替えた場合に別の意味になる場合は、ひとまとまりの語 ・日本語では地名でないものは地名としない。(ウィナー、アメリカン、ナ ポリタンなど) ・上記の条件に適合しても、他と矛盾がある場合、あるいは揺れがあるもの はOPTIONALにする。 ここは、正解作成者の判断にまかせる。 野口さんの例を広辞苑で辞書びきすると、次のようになります。 ◎広辞苑に載っているもの フランス料理,パリジェンヌ,江戸っ子,京女,東男,瀬戸物,唐きび (唐黍),五 右衛門風呂,川崎病,ハンセン氏病 (ハンセン病で記載),漢字,英語, ロイド眼鏡(ロイドがセルロイドからという語源説もあり), オーデ・コロン などが ◎載っていないもの フランス人形, アメリカンコーヒー (アメリカンという項目に、アメリカンコーヒーの略と はありましたが..) ------------------------------------------------------------------ #これ以降の羅列は、何を意図しているんでしょうか? #説明不足でわかりません。 @ その他複合語の例です。上記の説明は、上にある例では上手くいく @ ように思えるのですが、下のような例が出た時に悩みました。 米軍機 衆参議長 労働党委員 沖電気関西研究所長 来日 訪米 訪韓 在米 在エジプト 博多人形 鈴木家 メディチ家 フィリピン人 在韓米軍ヘリコピター 米軍立川基地 在ナイジェリア日本大使館 (正式名称) イスラエル建国記念日 ニュージーランド国会 韓国三星 # (1) 江里口提案の採用 # (2) 「地名+組織名」も定義として採用される場合 # (3) 「地名+組織名」の定義に付随し、「在韓」等を次のように決める # 「在」+地名+組織名や、地名+「駐在」+組織名のように、 # 織名の存在場所等を限定する場合は、全てをまとめて組織名とする。 # # (2)より # イスラエル建国記念日 ; 日付にも拡張? # ニュージーランド国会韓国三星 # # (3)より # 在韓米軍ヘリコピター在ナイジェリア日本大使館 (正式名称) # # 組織名+組織名のルールより # 米軍立川基地 ;文脈によってはLOC # # (1)より # 議長 # 労働党委員 # 博多人形 # 鈴木家 # メディチ家 # フィリピン人 # # 以下は、本来タグをつけないような定義に変えたつもりだったが、 # 新しい定義を加えても、まだ不備。結果、OPTIONALにする。 # # 来 or 来日 # 訪 or 訪米 # 訪 or 在韓 # 在 or 在米 ; 後に組織名が続かない場合 # 在エジプト ; 後に組織名が続かない場合 # # # 以下は該当定義がないため困りました。どうしましょうか? # 米軍機 # 沖電気関西研究所長 * 肩書きと一体化した名称 清少納言 虞美人 * 肩書きのみで、特定の個人を指す 天皇 ダライラマ ローマ法王 * 固有名とクラス 魚沼産コシヒカリ 新潟産コシヒカリ * 普通名詞が固有の物を指す場合 総務部 -------------------- (1) NTT総務部長 (2) ○○はNTTに入社、総務部に配属。 (3) ○○はNTTに入社。...総務部時代には、.... (4) 各社の総務部が集まって.... (1)は、上位組織名とつながっている場合 (2)は、文だけから、上位組織が判定できる場合 (3)は、記事から、上位組織が判定できる場合 (4)は、特定の総務部とはいえない場合 ◎新聞記事の特有の表現:[最後の出展を表す部署、支社名] (5) ......。 (社会部) (6) ......。 (ローマ支局) -------------------- # 「文脈(意味)か字面か(表記)?」の項を参照の事 * 仮名 仮名:田中太郎氏 「A子」、「B氏」という仮名に対する対応と、 「田中太郎氏(仮名)」という両者の扱いを考えた定義であること。 「田中太郎氏(仮名)が、.....。田中氏は......」という文書があった 時についての処置まで検討する必要があります。 * 名称とその内容が明確に一致せず、固有名としてよいか分らない場合 ONUMOZ(国連モザンピーク活動) タグなし UNAVEM2(第2次国連アンゴラ監視団) * 地名の概略表現 首都圏 北極圏 大阪圏内 九州北部 南九州 環太平洋 --江里口・竹元提案----------- 概略的表現は地名表現に入れないことを原則にしつつ、分割することにより 指している場所が変わる名称は、その概略的表現も含める 具体的には「の」を間に入り、概略的表現を修飾することが可能であれば、 概略的表現は含めない。そうでない場合は含める。 #「概略的表現」という言葉の使い方があっているかどうかあやしいですけど。 上記の例にたいしては、 首都圏 首都の圏とはいえない。首都と首都圏は別の場所 ※ただし、首都を地名ととらない場合は首都圏も 地名とならない。 北極圏 北極の圏とはいえない。北極と北極圏は別の場所 大阪圏内 大阪圏の内といえ、内を大阪圏が修飾している 九州北部 九州の北部といえ、北部を九州が修飾している 南九州 南の九州とはいえない。南九州と九州は別の場所 環太平洋 環の太平洋とはいないい。環太平洋と太平洋は別の場所。 ----------------------------- * 法律・条約等の範囲 法案 活動方針 米国の最恵国待遇 上海コミュニケ * 株は商品名か NTT株 ------------- 江里口案 -------------------------------------------- 株は固有物名にしないという例外の定義を作る or 株が後についた場合のみ株として扱い、それ以外は組織名と考える。 という例外的な定義をつくる。 [理由] 株式蘭の企業名は株を指すか、企業名を指すか人間にも判断できない ものがあるため、株は固有物名にしないという例外の定義を作る方が 混乱が少なくなる。 例)[株価]日本テレコム低迷続きそう NTTの株価 ------------------------------------------------------------------ * 並列的表現 コロンビア、ハーバード、ケンブリッジ各大 社会、民社両党 ---江里口案-------- 定義を変えることが不可であるならば、 3.1.Cの定義文の、分割すると違った意味になるには該当せず、 他に、分割する理由づけをされていないため分割しない。 定義を変えることが可能であれば、これをうまく理由づけする定義を 作り、それぞれを組織名にしたい。しかしながらうまい定義は現在 なし。 ------------------- * サービス名 MMF ひかり123号 PL保険 * 「特定の時」の解釈 一般的に人が知っている特定の時のみにするか 特定である事は知っていても、それがいつだかは一般には知られていない ような物も特定の時とするか? ロンドンの小学校の夏休み 山岸連合時代 #ロンドンの小学校の夏休みというのは、特定されていない気がして、 #この議題の例として不適切です。どこまでが時の表現という新しい #問題を含んではいますが。 @ では「西暦10年冬至」というのはどうでしょうか? # これは冬至が、年によって変わることがあるので太陽暦での何月何日か # を単純にはいえないということをいっているのですよね? # なんか引っかかりますが、いいんではないでしょうか。 1. 特定の時の定義を明確にする。 -------------------------------------------------------------- 江里口案 特定とは、誰もがいつなのか分かる表現で、周期性がある場合の表現も 抽出する。基本的に5W1Hに使える表現を抽出することを目的とする。 したがって、特定の年の春休みでなくても、春休みといえば無条件に 時の表現にする。また、「毎日」、「毎朝」、「毎年」というのも 時間表現とする。 #現行の定義では、「毎年」とか「春休み」がどうなるのかというのは、 #どちらか不明のままです。おそらく関根さんの頭の中にはMETの定義が #残っていると思いますが、参加者はMETのことは知りません。 @ そうですね。「毎」については、「当」も取っていないという事もあり、 @ ちょっと気持悪いですね。「毎年」を取るのに「当日」はなぜ取らないか @ という説明がかなり人工的になりそうなので。 「山岸連合時代」は、誰もがいつか分かるかという点において、時の表 現として相応しくない。「徳川時代」とはこの点で大きく異る。 -------------------------------------------------------------- * 文脈(意味)か字面か(表記)? = 固有名詞とは何か? = #固有名詞とはなにかという問題にすると、発散してしまうと思います。 #やるのは構いませんが、それなりの覚悟と、てぎわのよい議事進行を #しないと躊躇半端に発散したままで終ると思います。 @ これは昼食時に例の論文のためにガヤガヤと話せればと思っています。 @ 時間があれば、ミーティングの中でやってもいいだろうし。 @ 以下の例は論文のために考えていたものです。「椅子」はどうか @ 替えた方がいいでしょうか?でもARTIFACTではないですか? @ コクヨのChair1005がARTIFACTなら。 井佐原さんがオフィスで使用している椅子 NTT本社の総務部 トヨタのカローラ さくら銀行の福岡支店 ニュージーランドの国会 ニューヨークの自由の女神 ニューヨーク大学の関根聡 において 「椅子」「総務部」「カローラ」「福岡支店」「国会」「自由の女神」「関根聡」は 文脈上では、すべて、世界にひとつしかない固有の物を指していると考えられる。 どこが違うのか? #全て特定できるという点では固有でありどこも違いません。 #抽出対象項目のものは、特別な理由がない限り、全部とる(文脈)か #全部とらない(字面)で統一すべきです。 @ この中に線を引こうというのが固有表現抽出のひとつの意味なのでは @ ないでしょうか? 一般名詞でその文脈も考えるとなるとなると @ 今の所、システムでは立ち打ちできないですよね。 #したがって、文脈優先であれば、総務部, カローラ, #福岡支店, 国会, 自由の女神, #関根聡にするのがてきとうでしょう。(椅子は該当項目なし) #最も、「自由の女神」は作品名に該当すると考える場合です。 #だから、前からいっているように(ロンドン支局)を抽出するなら(総務部)も #抽出する、そうでないなら両方とらないと主張しています。 #関根さんの主張する、ロンドン支局は抽出、総務部は抽出しないという主張に #したいのであれば、それなりの理由を作る必要があります。 #(最も両方とらない場合は、ロンドン支局になるんですが。) @ 私の線引きの基準は固有名詞が含まれる、または、それ自体が固有表現で @ あるという事です。「国会」のようなものは2番目の説明で逃げたいの @ ですが、それが「固有名詞とは?」という疑問のきっかけです。 英語だと国会も憲法もCapitalizeされて固有名詞のようなのですけどね。 関根  1, answered,, Summary-line: 18-Nov eriguchi@lit.rd.nttdata.c #NE discusion No.2 Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id BAA10765 for ; Wed, 18 Nov 1998 01:32:02 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id BAA04033 for ; Wed, 18 Nov 1998 01:32:18 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id PAA16521 for ; Wed, 18 Nov 1998 15:32:05 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id PAA04886 for ; Wed, 18 Nov 1998 15:32:04 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id PAA19329 for ; Wed, 18 Nov 1998 15:32:02 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id PAA24328; Wed, 18 Nov 1998 15:32:03 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA12055; Wed, 18 Nov 98 15:33:13 JST Date: Wed, 18 Nov 98 15:33:13 JST From: Yoshio Eriguchi Message-Id: <9811180633.AA12055@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Tue, 17 Nov 1998 16:28:50 -0500 (EST) <199811172128.QAA07452@noreen.cs.nyu.edu> Subject: NE discusion No.2 Content-Type: text Content-Length: 6309 *** EOOH *** Date: Wed, 18 Nov 98 15:33:13 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Tue, 17 Nov 1998 16:28:50 -0500 (EST) <199811172128.QAA07452@noreen.cs.nyu.edu> Subject: NE discusion No.2 Content-Type: text Content-Length: 6309 江里口です。 関根さんの、IREXにおける文脈についての立場を明確にしてください。 どうも、ここがはっきりしていないため、定義や解釈に関して、 関根さんの意見と私の意見がずれてきている気がしてきました。 これを私達が誤解していると、次のミーティングでピントがボケてくる 気がしたので、教えてください。 各質問の答えは、私が理解している関根さんの思いで、これを基準に これまで定義、および、正解データを作ってきました。 (4)については、いままで、「YES」と思っていましたが、 メイル、定義を読み返していくうちに、関根さんは実は「No」 ではないかと思いました。 1)名称の判断は文脈を考慮するのか? Yes 2)文脈の判断は、文単位か、文書単位か? 文書単位 3)定義には、文脈を使うのは、「場所or組織名」「組織名or建造物」 「役職or人名」「組織名or固有物名」「相対時間表現の起点の有無」 の判断でしか使うことが明示されていないが、文脈の利用範囲は それだけか? No 4)固有名詞的表現が固有かどうか判断するのは文脈か? ? 5)文脈を無視する想定する例外規則は、単独の国名は常に地名という 規則と、換喩表現だけか? (この規則は、9月のミーティングでは決まったような気がしますが、 定義には反映されていません。) YES 以下は、このような質問をするきっかけになった私の関根さんの メイルへの回答です。 --------------------------------------------------------------------- >固有名詞とはなにかという問題にすると、発散してしまうと思います。 >やるのは構いませんが、それなりの覚悟と、てぎわのよい議事進行を >しないと躊躇半端に発散したままで終ると思います。 @ これは昼食時に例の論文のためにガヤガヤと話せればと思っています。 @ 時間があれば、ミーティングの中でやってもいいだろうし。 @ 以下の例は論文のために考えていたものです。「椅子」はどうか @ 替えた方がいいでしょうか?でもARTIFACTではないですか? @ コクヨのChair1005がARTIFACTなら。 椅子がARTIFACTになる根拠は、定義を読み返しましたが見つかりません。 定義上にはありますか? あえていうとクラスに該当しますが。 クラスの定義も、あらためて読み返すと何を言っているか解釈が難しい ですね。「ある範囲のものに固有名がついている場合」とは何のことか 分からないですね。 困りました。クラスの定義のいい案が思い浮かびません。 カローラを○にして、アイスクリームを×にする苦肉の策だとはおも いますが、議論に加わっていない皆さんには伝わりそうにないです。 井佐原さんがオフィスで使用している椅子 NTT本社の総務部 トヨタのカローラ さくら銀行の福岡支店 ニュージーランドの国会 ニューヨークの自由の女神 ニューヨーク大学の関根聡 において 「椅子」「総務部」「カローラ」「福岡支店」「国会」「自由の女神」「関根聡」は 文脈上では、すべて、世界にひとつしかない固有の物を指していると考えられる。 どこが違うのか? >全て特定できるという点では固有でありどこも違いません。 >抽出対象項目のものは、特別な理由がない限り、全部とる(文脈)か >全部とらない(字面)で統一すべきです。 @ この中に線を引こうというのが固有表現抽出のひとつの意味なのでは @ ないでしょうか? 一般名詞でその文脈も考えるとなるとなると @ 今の所、システムでは立ち打ちできないですよね。 なぜその中に線を引くことが、固有表現抽出のひとつの意味なのでしょうか? 文脈を使うと宣言した場合に、この場合は文脈を使う、別の場合では 文脈は駄目とするのはおかしいです。曖昧性を回避するために、 例外規則を作ることはありますが、それは最終手段であって、できる限り 本則に基づいた定義をするのが筋だと思います。 逆に、どのレベルまでを文脈と解釈するかをはっきりさせる必要があると 思っています。 「 * 普通名詞が固有の物を指す場合」で、あげた「総務部」の例は、 単語単位、文単位、文書単位、固有でないものという4つのことなるレベル の代表として、関根さんに問いかけたものです。 そのあたりが曖昧なまま関根さんが定義を作っている、あるいは、正解タグを つけているような気がしたので以前、関根さんに質問をしました。その時は、 時間的な関係で、あまり突っ込んだ議論にはなっていませんでした。関根さん の回答は、「文脈を優先する、でも普通名詞はとりたくないという」でした。 また、関根さんは、システムで実現の可能不可能は問題ではなく、人間が 理解できるのであれば、文脈から分かるものでも、なんでも名称として 扱うべきだと主張されていました。これは変わったのでしょうか? >したがって、文脈優先であれば、総務部, カローラ, >福岡支店, 国会, 自由の女神, >関根聡にするのがてきとうでしょう。(椅子は該当項目なし) >最も、「自由の女神」は作品名に該当すると考える場合です。 >だから、前からいっているように(ロンドン支局)を抽出するなら(総務部)も >抽出する、そうでないなら両方とらないと主張しています。 >関根さんの主張する、ロンドン支局は抽出、総務部は抽出しないという主張に >したいのであれば、それなりの理由を作る必要があります。 >(最も両方とらない場合は、ロンドン支局になるんですが。) @ 私の線引きの基準は固有名詞が含まれる、または、それ自体が固有表現で @ あるという事です。「国会」のようなものは2番目の説明で逃げたいの @ ですが、それが「固有名詞とは?」という疑問のきっかけです。 文脈で判断といいながら、固有かどうかの判断は、その名称が固有名詞をふく むかどうかという字面だけの判断をするとういうのは矛盾していませんか? 定義を良み直すと、文脈を使うのは、「場所or組織名」「組織名or建造物」 「役職or人名」「組織名or固有物名」「相対時間表現の起点の有無」という ケースでしか使わないように読めます。9月のミーティングや、メイルでの 議論で主張されるほど、文脈を考慮する姿勢は読みとれません。 #これはいままで気づきませんでした。 文脈を使うのは上記の5つのケースのみであり、むしろ文脈を使う方が 例外であるというのであれば、ロンドン支局を、組織名として抽出せず、 ロンドンとすれば収まるような気がします。 #私としては、これまで文脈依存といって定義を作成していたので、 #ここで根幹を変えることは反対しますが。 -- Eriguchi  1,, Summary-line: 18-Nov eriguchi@lit.rd.nttdata. #NE discusion No.1 Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id KAA12327 for ; Wed, 18 Nov 1998 10:54:50 -0500 (EST) Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id KAA08395 for ; Wed, 18 Nov 1998 10:55:07 -0500 (EST) Received: (from sekine@localhost) by noreen.cs.nyu.edu (8.9.1/8.9.1) id KAA08213; Wed, 18 Nov 1998 10:54:51 -0500 (EST) Date: Wed, 18 Nov 1998 10:54:51 -0500 (EST) From: Satoshi Sekine Message-Id: <199811181554.KAA08213@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Wed, 18 Nov 98 15:27:48 JST <9811180627.AA12011@pittsburgh.lit.rd.nttdata.co.jp> Subject: NE discusion No.1 Content-Type: text Content-Length: 4058 *** EOOH *** Date: Wed, 18 Nov 1998 10:54:51 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Wed, 18 Nov 98 15:27:48 JST <9811180627.AA12011@pittsburgh.lit.rd.nttdata.co.jp> Subject: NE discusion No.1 Content-Type: text Content-Length: 4058 メイルが長くなるので、不要と思われる部分は消して返事をします。 # (1) 江里口提案の採用 # (2) 「地名+組織名」も定義として採用される場合 # (3) 「地名+組織名」の定義に付随し、「在韓」等を次のように決める # 「在」+地名+組織名や、地名+「駐在」+組織名のように、 # 織名の存在場所等を限定する場合は、全てをまとめて組織名とする。 # # (2)より # イスラエル建国記念日 ; 日付にも拡張? # ニュージーランド国会韓国三星 「イスラエル建国記念日」は「イスラエルの建国記念日」なので いい気がしますが、「韓国三星」は「韓国の三星」ではなくて 「三星 , which is located in 韓国」という感覚に私は思えるので (コンマ付きの非限定用法です。「韓国にあるところの三星」という 限定用法ではなく、「三星という会社は韓国にあるのだか、その三星」 という意味の非限定用法に思えます。) 一緒にするのは気持悪いというところです。 # (3)より # 在韓米軍ヘリコピター在韓米軍ヘリコプター」 ですよね? 「在」に関しては # 在ナイジェリア日本大使館 (正式名称) # # 組織名+組織名のルールより # 米軍立川基地 ;文脈によってはLOC 以下の所が、この予備試験で「江里口案」を嫌がった理由です。 # (1)より # 議長 これはまあいいでしょう。 # 労働党委員 僕のタイプミスで、これは「労働党員」でしたが、「労働党員」 とするとするなら、「自民党員」「社会党員」「共産党員」。。。 は広辞苑に載っていませんでしたか? # 博多人形 「博多人形」が広辞苑にないですか? では「日本人形」は?「山形人形」は「米澤人形」は??? # 鈴木家 # メディチ家 「メディチ家」がないですか? では、「エリザベス家」「ロクフェラー家」「木村家」「関根家」等等等は どうでしょうか? # フィリピン人 当然、「日本人」は広辞苑にありますよね? # 以下は、本来タグをつけないような定義に変えたつもりだったが、 # 新しい定義を加えても、まだ不備。結果、OPTIONALにする。 # # 来 or 来日 # 訪 or 訪米 # 訪 or 在韓 # 在 or 在米 ; 後に組織名が続かない場合 # 在エジプト ; 後に組織名が続かない場合 現在の定義だと、悩む事なくすべてLOCATIONですよね? # 以下は該当定義がないため困りました。どうしましょうか? # 米軍機 「自衛隊機」は広辞苑にはないのですね?「イスラエル軍機」が広辞苑に 載っているかどうか、「アメリカ軍機」「アメリカ空軍機」「日本空軍機」 などなどをすべて調べて、それでもないようだったら、 普通名詞化していないものは分割するという事で 「米軍機」ではないでしょうか? # 沖電気関西研究所長 同じく、「沖電気関西研究所長」でしょう。 「文相」は「相」なのに(ですよね?)、 気持悪くありませんか? ---------- @ では「西暦10年冬至」というのはどうでしょうか? # これは冬至が、年によって変わることがあるので太陽暦での何月何日か # を単純にはいえないということをいっているのですよね? # なんか引っかかりますが、いいんではないでしょうか。 はい、そういう事です。 関根  1,, Summary-line: 18-Nov eriguchi@lit.rd.nttdata. #NE discusion No.2 Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id LAA12599 for ; Wed, 18 Nov 1998 11:26:14 -0500 (EST) Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id LAA08911 for ; Wed, 18 Nov 1998 11:26:30 -0500 (EST) Received: (from sekine@localhost) by noreen.cs.nyu.edu (8.9.1/8.9.1) id LAA08233; Wed, 18 Nov 1998 11:26:24 -0500 (EST) Date: Wed, 18 Nov 1998 11:26:24 -0500 (EST) From: Satoshi Sekine Message-Id: <199811181626.LAA08233@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Wed, 18 Nov 98 15:33:13 JST <9811180633.AA12055@pittsburgh.lit.rd.nttdata.co.jp> Subject: NE discusion No.2 Content-Type: text Content-Length: 9293 *** EOOH *** Date: Wed, 18 Nov 1998 11:26:24 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Wed, 18 Nov 98 15:33:13 JST <9811180633.AA12055@pittsburgh.lit.rd.nttdata.co.jp> Subject: NE discusion No.2 Content-Type: text Content-Length: 9293 関根さんの、IREXにおける文脈についての立場を明確にしてください。 どうも、ここがはっきりしていないため、定義や解釈に関して、 関根さんの意見と私の意見がずれてきている気がしてきました。 そうですね。 考えてみましたが、どうも、主に文脈を使用したいが、それでは 定義に破綻が見られそうな所では、文脈よりも表記を利用するという 考えのようです。このような特例的な考え方は、いままでにも 「宗教」だとか「単独の国名」、「政治機関」、「賞とランキング」 なんかで使用されていますよね? 各質問の答えは、私が理解している関根さんの思いで、これを基準に これまで定義、および、正解データを作ってきました。 (4)については、いままで、「YES」と思っていましたが、 メイル、定義を読み返していくうちに、関根さんは実は「No」 ではないかと思いました。 1)名称の判断は文脈を考慮するのか? Yes 2)文脈の判断は、文単位か、文書単位か? 文書単位 3)定義には、文脈を使うのは、「場所or組織名」「組織名or建造物」 「役職or人名」「組織名or固有物名」「相対時間表現の起点の有無」 の判断でしか使うことが明示されていないが、文脈の利用範囲は それだけか? No ここまではいいです。 4)固有名詞的表現が固有かどうか判断するのは文脈か? ? 普通名詞により固有の事柄を指すかどうかの文脈での判断は 曖昧である事が多くなる。また、ある文脈における「アイスクリーム」が 固有であるかを判断する事は、今回の固有表現抽出コンテストの目的に そぐわないし、(今回は、このような課題を知らない人にも知ってもら おうという意味があり、MUCやMETに過去に参加した人達を相手に より精度のいいものや難しい課題にチャレンジしてもらおうというもの ではありません。) それをシステムに要求するのはあまりにも無理である。 したがって、固有表現は、固有名詞を含む物、または、普通名詞的な 表現でも、その事柄が世界や日本に1つしかないような、文脈がなくても 意味的に固有名詞であるような物に限る。 という事です。 このあたりを関根提案としてまとめて議案に含めます。 5)文脈を無視する想定する例外規則は、単独の国名は常に地名という 規則と、換喩表現だけか? (この規則は、9月のミーティングでは決まったような気がしますが、 定義には反映されていません。) YES ここに、 その表現が文脈を無視した場合にも固有の物を示すような表現を 除いた普通名詞によって示される表現 というのを加えたいと思います。 (すみませんでした、やっと「思い」が言葉になったような気がします) 以下は、このような質問をするきっかけになった私の関根さんの メイルへの回答です。 --------------------------------------------------------------------- >固有名詞とはなにかという問題にすると、発散してしまうと思います。 >やるのは構いませんが、それなりの覚悟と、てぎわのよい議事進行を >しないと躊躇半端に発散したままで終ると思います。 @ これは昼食時に例の論文のためにガヤガヤと話せればと思っています。 @ 時間があれば、ミーティングの中でやってもいいだろうし。 @ 以下の例は論文のために考えていたものです。「椅子」はどうか @ 替えた方がいいでしょうか?でもARTIFACTではないですか? @ コクヨのChair1005がARTIFACTなら。 椅子がARTIFACTになる根拠は、定義を読み返しましたが見つかりません。 定義上にはありますか? あえていうとクラスに該当しますが。 そのようですね、何かいい例を考えます。 クラスの定義も、あらためて読み返すと何を言っているか解釈が難しい ですね。「ある範囲のものに固有名がついている場合」とは何のことか 分からないですね。 このあたりの定義の仕方については、昔、「定義だけできちんと するのはほとんど無理なので、例を沢山出す事によって、感覚を 伝えるしかないであろう」というような事を話し合いませんでしたっけ? 困りました。クラスの定義のいい案が思い浮かびません。 カローラを○にして、アイスクリームを×にする苦肉の策だとはおも いますが、議論に加わっていない皆さんには伝わりそうにないです。 井佐原さんがオフィスで使用している椅子 NTT本社の総務部 トヨタのカローラ さくら銀行の福岡支店 ニュージーランドの国会 ニューヨークの自由の女神 ニューヨーク大学の関根聡 において 「椅子」「総務部」「カローラ」「福岡支店」「国会」「自由の女神」「関根聡」は 文脈上では、すべて、世界にひとつしかない固有の物を指していると考えられる。 どこが違うのか? >全て特定できるという点では固有でありどこも違いません。 >抽出対象項目のものは、特別な理由がない限り、全部とる(文脈)か >全部とらない(字面)で統一すべきです。 @ この中に線を引こうというのが固有表現抽出のひとつの意味なのでは @ ないでしょうか? 一般名詞でその文脈も考えるとなるとなると @ 今の所、システムでは立ち打ちできないですよね。 なぜその中に線を引くことが、固有表現抽出のひとつの意味なのでしょうか? 文脈を使うと宣言した場合に、この場合は文脈を使う、別の場合では 文脈は駄目とするのはおかしいです。曖昧性を回避するために、 例外規則を作ることはありますが、それは最終手段であって、できる限り 本則に基づいた定義をするのが筋だと思います。 逆に、どのレベルまでを文脈と解釈するかをはっきりさせる必要があると 思っています。 しかし、「椅子」を固有表現として(意味解析どころか構文解析も充分に できていない今の段階で)抽出する事にはあまり意味を感じません。 ある程度は表記だけで取れるようにしたいというのが、今の技術レベルを 考えた上での課題の設定の意味だと思います。 「 * 普通名詞が固有の物を指す場合」で、あげた「総務部」の例は、 単語単位、文単位、文書単位、固有でないものという4つのことなるレベル の代表として、関根さんに問いかけたものです。 そのあたりが曖昧なまま関根さんが定義を作っている、あるいは、正解タグを つけているような気がしたので以前、関根さんに質問をしました。その時は、 時間的な関係で、あまり突っ込んだ議論にはなっていませんでした。関根さん の回答は、「文脈を優先する、でも普通名詞はとりたくないという」でした。 もし、「普通名詞」という事で納得できるのなら、明確な定義になるのでは ないでしょうか? それが好きか嫌いかは別にして。 また、関根さんは、システムで実現の可能不可能は問題ではなく、人間が 理解できるのであれば、文脈から分かるものでも、なんでも名称として 扱うべきだと主張されていました。これは変わったのでしょうか? おっと、そういう話しをしましたっけ? このメイルで書いているように、ある程度は今の技術レベルを考えた方が いいと思います。もう一歩でできるくらいのレベルは構いませんが、 「アイスクリーム」が固有かどうか判断するのはまだまだと思います。 もちろん、それだけの新たな課題を作って、挑戦的にやってもいいです。 照応(CO)の課題なんかは、それを含んでいるかもしれませんね。 でも確か正解率は50%くらいで、アイスクリームの例なんかは ほとんどできないのではないでしょうか?(話がそれましたが) >したがって、文脈優先であれば、総務部, カローラ, >福岡支店, 国会, 自由の女神, >関根聡にするのがてきとうでしょう。(椅子は該当項目なし) >最も、「自由の女神」は作品名に該当すると考える場合です。 >だから、前からいっているように(ロンドン支局)を抽出するなら(総務部)も >抽出する、そうでないなら両方とらないと主張しています。 >関根さんの主張する、ロンドン支局は抽出、総務部は抽出しないという主張に >したいのであれば、それなりの理由を作る必要があります。 >(最も両方とらない場合は、ロンドン支局になるんですが。) @ 私の線引きの基準は固有名詞が含まれる、または、それ自体が固有表現で @ あるという事です。「国会」のようなものは2番目の説明で逃げたいの @ ですが、それが「固有名詞とは?」という疑問のきっかけです。 文脈で判断といいながら、固有かどうかの判断は、その名称が固有名詞をふく むかどうかという字面だけの判断をするとういうのは矛盾していませんか? 定義を良み直すと、文脈を使うのは、「場所or組織名」「組織名or建造物」 「役職or人名」「組織名or固有物名」「相対時間表現の起点の有無」という ケースでしか使わないように読めます。9月のミーティングや、メイルでの 議論で主張されるほど、文脈を考慮する姿勢は読みとれません。 #これはいままで気づきませんでした。 そうですね、「文脈で判断」するという解釈に、ちょっと行き違いが あったかもしれません。でも、僕も、上記のだけにしか「文脈」というのを 使っていないとは思いませんでした。総合的な説明には文脈という言葉は 使っていないのですね。 文脈を使うのは上記の5つのケースのみであり、むしろ文脈を使う方が 例外であるというのであれば、ロンドン支局を、組織名として抽出せず、 ロンドンとすれば収まるような気がします。 #私としては、これまで文脈依存といって定義を作成していたので、 #ここで根幹を変えることは反対しますが。 僕もこの江里口さんの姿勢には賛成です。 関根  1, filed,, Summary-line: 19-Nov eriguchi@lit.rd.nttdata.c #NE discusion Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id GAA20510 for ; Thu, 19 Nov 1998 06:35:26 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id GAA25211 for ; Thu, 19 Nov 1998 06:35:39 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id UAA07559 for ; Thu, 19 Nov 1998 20:35:32 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id UAA02309 for ; Thu, 19 Nov 1998 20:35:31 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id UAA05537 for ; Thu, 19 Nov 1998 20:35:29 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id UAA21556 for ; Thu, 19 Nov 1998 20:35:30 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA17797; Thu, 19 Nov 98 20:36:38 JST Date: Thu, 19 Nov 98 20:36:38 JST From: Yoshio Eriguchi Message-Id: <9811191136.AA17797@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 18 Nov 1998 10:54:51 -0500 (EST) <199811181554.KAA08213@noreen.cs.nyu.edu> Subject: NE discusion Content-Type: text Content-Length: 8330 *** EOOH *** Date: Thu, 19 Nov 98 20:36:38 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 18 Nov 1998 10:54:51 -0500 (EST) <199811181554.KAA08213@noreen.cs.nyu.edu> Subject: NE discusion Content-Type: text Content-Length: 8330 江里口です。 #NE議論メイル三連発です。 > # (1) 江里口提案の採用 > # (2) 「地名+組織名」も定義として採用される場合 > # (3) 「地名+組織名」の定義に付随し、「在韓」等を次のように決める > # 「在」+地名+組織名や、地名+「駐在」+組織名のように、 > # 織名の存在場所等を限定する場合は、全てをまとめて組織名とする。 > # > # (2)より > # イスラエル建国記念日 ; 日付にも拡張? > # ニュージーランド国会 > # 韓国三星 > >「イスラエル建国記念日」は「イスラエルの建国記念日」なので >いい気がしますが、「韓国三星」は「韓国の三星」ではなくて >「三星 , which is located in 韓国」という感覚に私は思えるので >(コンマ付きの非限定用法です。「韓国にあるところの三星」という >限定用法ではなく、「三星という会社は韓国にあるのだか、その三星」 >という意味の非限定用法に思えます。) >一緒にするのは気持悪いというところです。 ・韓国三星だけで考えれば、限定用法的なあつかいだろうが、非限定用法 の扱いであろうが、本来組織名のなかに韓国は含まれていないので、 わけるというのは筋がいいと思います。 しかし、「ニュージーランド国会」や、「在韓ナイジェリア日本大使館」 などの例まで考えると、分けないほうがいいのではないでしょうか? #韓国○○という組織名のうち韓国が含んだ組織名と韓国を含まない組織名を #私には判断できません。 人間が(辞書などを調べなくては)判断できない、名称を抽出することに 意味はあるのでしょうか? システムの実現が難しいから抽出対象にしないという考えがあるのであれば、 はるかにこちらの方が考慮すべき問題だと思います。 #これも以前に質問しましたが、改めて質問します。 人間が自力で判断できないもの、辞書や、Webの情報を駆使しない と判断できないものを抽出することに意義を感じませんし、正解タ グを作るのに、そのような作業をしたくありません。 #在ナイジェリア日本大使館が正式名称であろうが、韓国三星を全体で #組織名として扱おうが、扱うまいが、関係なく文の意味は分かります。 話はそれますが、複合名詞に対する江里口案は、「普通名詞化して いる」「慣用表現となっている」という判断基準であったことを思 い出して下さい。これは、「普通名詞化している」という判断を、 できるだけ人による揺れをすくなくするための提案で、名称にタグ 付けするたびに、辞書びきするわけではありません。通常は関根さ んや、私の常識から普通名詞化、慣用表現化していると判断し、二 人の意見が違った時、あるいは、迷った時の拠り所と考えています。 参加者サイドから見ても、普通名詞化していると考える根拠が分かっ ていれば、自分で私達と同じ正解データを作る可能性が高いですし、 私達の誤りに対しても根拠をははっきり示すことができます。 > # (1)より > # 議長 > >これはまあいいでしょう。 > > # 労働党委員 > >僕のタイプミスで、これは「労働党員」でしたが、「労働党員」 >とするとするなら、「自民党員」「社会党員」「共産党員」。。。 >は広辞苑に載っていませんでしたか? 載っていません。 でも労働党員の場合は、別の問題があります。これは後で。 > # 博多人形 > >「博多人形」が広辞苑にないですか? >では「日本人形」は?「山形人形」は「米澤人形」は??? これは、私が「フランス人形」だけをみて判断してしまいました。 よって、博多人形は正解者の調整というのが発動しない限り、 タグなしですね。 #「フランス人形」も調整の対象になるかもしれません。 > # 鈴木家 > # メディチ家 > >「メディチ家」がないですか? >では、「エリザベス家」「ロクフェラー家」「木村家」「関根家」等等等は >どうでしょうか? 広辞苑第4版にはありません。 「メディチ」「エリザベス」「ロックフェラー」はいずれも載っていますが。 > # フィリピン人 > >当然、「日本人」は広辞苑にありますよね? これは、載ってました。 よって、フィリピン人はタグなし、またはOPTIONALです。 最初の江里口案のままでは、「フィリピンの人」と「フィリピン人」が 同じ意味かという疑問もありますが、もうすこし細則をつめれば、 回避できるとおもいます。 #本当は○○人はタグ付けしたくなかったから好都合。個人的には #○○人だけの例外規則を付けたかったくらいですから。 > # 以下は、本来タグをつけないような定義に変えたつもりだったが、 > # 新しい定義を加えても、まだ不備。結果、OPTIONALにする。 > # > # 来 or 来日 > # 訪 or 訪米 > # 訪 or 在韓 > # 在 or 在米 ; 後に組織名が続かない場合 > # 在エジプト ; 後に組織名が続かない場合 > >現在の定義だと、悩む事なくすべてLOCATIONですよね? はい、そうです。 ただし、定義からではなく例によって悩まずに判断できるものです。 「訪日」の「訪」が接辞になるのかどうかの判断は難しいです。 普通名詞化している例に、「訪日」をいれれば、江里口案で 迷わずタグなしにすることができます。 #「在エジプト」はOPTIONALになると思いますが。 > # 以下は該当定義がないため困りました。どうしましょうか? > # 米軍機 > >「自衛隊機」は広辞苑にはないのですね?「イスラエル軍機」が広辞苑に >載っているかどうか、「アメリカ軍機」「アメリカ空軍機」「日本空軍機」 >などなどをすべて調べて、それでもないようだったら、 >普通名詞化していないものは分割するという事で >「米軍機」ではないでしょうか? 米軍機は、悩むことがなく米軍だったんですが、書き損じました。 広辞苑は引くかどうかは、誰かに「米軍機」は普通名詞化していると考えた ほうがいいのではという質問があった時や、アメリカ空軍機が広辞苑に載って いたという時だけしか引くつもりはありません。 #ちなみに、米軍機は引いていません。多分ないでしょう。 > # 沖電気関西研究所長 > >同じく、「沖電気関西研究所長」でしょう。 >「文相」は「相」なのに(ですよね?)、 >気持悪くありませんか? ここで悩んでいたのは、広辞苑の話ではなく、次の点です。 1)複合語でない単語を分割しないことはどこにも定義されていない。 2)接辞に対する定義が怪しいきがする 3)複合名詞の構造に対する説明の不足 つまり、「所長」を分割することはいいのか、 「労働党員」は「労働党+員」なのか「労働+党員」なのか ということです。それを解決するいい案を今日、同じグループの人から 提案してもらいました。 「関西研究所長」は「関西研究所」+「所長」の複合語で、 「所」がなくなっているオーバーラップした複合である。 という解釈です。 「オーバーラップした複合語」を考えると、今まで悩んでいた数々の問題 が解決しそうです。 もちろんこの概念が、皆に伝わればということが前提条件ですが。 「オーバーラップした複合語」を名詞連続と考え、江里口案の名詞連続の 定義案を適用すれば、「関西研究所長」は「関西研究所の所長」と言い替 えられるため、分けるという考え方できれいに説明ができます。 どうでしょう? 更に、文相について今までしっくりこなかった理由が説明できる ようになりました。 蛇足ながら、文相は、じつは「文」が組織名となる根拠は今までの 定義でも、私の案でもないように思えます。 「文相」は何の省略形でしょうか? 「文部省相」という言葉があるのでしょうか? 「首相」が「内閣総理大臣の通称である」(岩波国語辞典)ならば、 「文相」も、文部大臣の通称であるはずです。 (岩波にも広辞苑にも載っていなかったんですが。。) このケースはどの定義を適用しても、組織名にならないと思います。 これに限っていいえば、例が先行しすぎて失敗したといえます。 -- Eriguchi  1, filed,, Summary-line: 19-Nov eriguchi@lit.rd.nttdata.c #NE discusion Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id GAA20514 for ; Thu, 19 Nov 1998 06:36:13 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id GAA25216 for ; Thu, 19 Nov 1998 06:36:31 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id UAA07646 for ; Thu, 19 Nov 1998 20:36:30 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id UAA02394 for ; Thu, 19 Nov 1998 20:36:29 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id UAA05565 for ; Thu, 19 Nov 1998 20:36:27 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id UAA21564 for ; Thu, 19 Nov 1998 20:36:28 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA17806; Thu, 19 Nov 98 20:37:36 JST Date: Thu, 19 Nov 98 20:37:36 JST From: Yoshio Eriguchi Message-Id: <9811191137.AA17806@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 18 Nov 1998 11:26:24 -0500 (EST) <199811181626.LAA08233@noreen.cs.nyu.edu> Subject: NE discusion Content-Type: text Content-Length: 7223 *** EOOH *** Date: Thu, 19 Nov 98 20:37:36 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 18 Nov 1998 11:26:24 -0500 (EST) <199811181626.LAA08233@noreen.cs.nyu.edu> Subject: NE discusion Content-Type: text Content-Length: 7223 江里口です。 > なぜその中に線を引くことが、固有表現抽出のひとつの意味なのでしょうか? > 文脈を使うと宣言した場合に、この場合は文脈を使う、別の場合では > 文脈は駄目とするのはおかしいです。曖昧性を回避するために、 > 例外規則を作ることはありますが、それは最終手段であって、できる限り > 本則に基づいた定義をするのが筋だと思います。 > 逆に、どのレベルまでを文脈と解釈するかをはっきりさせる必要があると > 思っています。 > >しかし、「椅子」を固有表現として(意味解析どころか構文解析も充分に >できていない今の段階で)抽出する事にはあまり意味を感じません。 >ある程度は表記だけで取れるようにしたいというのが、今の技術レベルを >考えた上での課題の設定の意味だと思います。 私も「椅子」を固有表現ととることには全く無意味だと思います。 「椅子」の例を出したのは関根さんで、固有物名となる可能性を を示そうとしたのも関根さんです。 私は、「椅子」に関してはとる抽出対象項目ではないと述べているに すぎません。 #ここは怒っているわけでも皮肉でもありませんせん。事実を整理しているだけです。 #どうしても、誤解がないように書くことができなかったので。すみません。 > >抽出対象項目のものは、特別な理由がない限り、全部とる(文脈)か > >全部とらない(字面)で統一すべきです。 私が前回のメイルで主張したのは、抽象対象項目の取捨選択の基準を きっちり示す必要があるということです。 そして、今回のメイルで関根さんは、固有名詞を含むか含まないかという 基準を使うことを提案していますが、今の関根さんの提案レベルでは、 私は納得できません。 私の「思いは」、同じ役割の名称には同じタグをつけることです。 会社の組織図からいけば、総務部と、ニューヨーク支社はどちらも 会社の一組織でしかないのに、片方は固有名詞を含まないから、 組織名でなく、片方は固有名詞を含むから組織名にするという関根 さんの主張に基づくタグつけは、どういう意味があるのかわかりません。 それが、ロンドン支局をとるのであれば、総務部も抽出する、しないなら 両方ともしないと主張している理由で、今回の関根さんの案に賛成 できない理由です。 #重箱的な話で恐縮ですが、会社によっては「NTT担当」や「NTT営業部」 #という組織があるそうです。この場合は文脈で所属する会社名がわかれば、 #抽出するのでしょうか? > 「 * 普通名詞が固有の物を指す場合」で、あげた「総務部」の例は、 > 単語単位、文単位、文書単位、固有でないものという4つのことなるレベル > の代表として、関根さんに問いかけたものです。 > > そのあたりが曖昧なまま関根さんが定義を作っている、あるいは、正解タグを > つけているような気がしたので以前、関根さんに質問をしました。その時は、 > 時間的な関係で、あまり突っ込んだ議論にはなっていませんでした。関根さん > の回答は、「文脈を優先する、でも普通名詞はとりたくないという」でした。 > >もし、「普通名詞」という事で納得できるのなら、明確な定義になるのでは >ないでしょうか? それが好きか嫌いかは別にして。 残念ながら、関根さんの主張が理解できていただけで、その主張には 同意できません。 固有名詞の定義が不明確である現状では、普通名詞の定義も同じく 不明です。固有名詞の定義を考えるのは困難です。固有名詞の定義 のかなりの部分を我々が作成し、それを確認する形で議事をすすめ、 かつ、その中に致命的な問題がないという、極めて厳しい条件を仮 定しないと、今回のミーティングだけでは決定することは不可能だ と思います。 固有名詞の定義はわからないという前提のもとに、名称の定義をつ くることで、ワシントン、6月のミーティングとつづいていったと 思います。 定義の最初の文も、 「固有名詞的表現は、組織名、人名、地名、固有物名の固有の対象 を示す表現をいう。」とうたってあり、固有名詞である必要性は まったくない形になっています。そのあとで、 「固有名詞や固有名詞を含む複合語、その省略語などの形で表現さ れている。ただし、指示代名詞や普通名詞を利用した照応表現は ここでの抽出対象には含まない。」 とつづいていますが、「など」という言葉が入っていることにより 固有名詞的表現の表現例の一例を示しておらず、十分条件とは受け取り にくいです。さらにその後に、明らかに固有名詞でない「指示代名詞」、 「普通名詞を利用した照応表現」を例外規則として示してあるため、 固有名詞以外の固有名詞的表現があることを暗に示していると思われます。 #この話は、一度メイルしました。その後の定義の変化から固有名詞を #含むことが絶対条件となるのは避けようとしているのかなと思っていました。 したがって、私は固有名詞という概念があやふやでも、対象名称の 定義の曖昧性を減らすように努力してきて、かなり問題をなくすこ とができたと思っています。おそらく、いま固有名詞の定義を考え るよりも、名称の定義を固有名詞という概念を明確にしなくても定 義する方向に持っていく方が議論は収束すると思います。 #ただし、固有物名のところは、現状でうまく説明できてはいません。 #固有名詞の概念があってもうまく説明できるとはおもえませんが。 おそらくこの問題の解決方法は、 1. 固有名詞の定義をはっきりさせ、定義に固有名詞、普通名詞という 概念をつかう。(関根案-1) 2. 固有名詞の定義をはっきりさせないが、定義に固有名詞、普通名詞という 概念をつかう。(関根案-2) 3. 固有名詞の定義は追求せず、名称の定義に固有名詞、普通名詞という 概念をつかない。(江里口案) 4. このままこの問題には触れず、問題にならないことを祈る。 だと思います。意外と4.でいいのかもしれません。 固有名詞の定義に踏み込むつもりですか? > また、関根さんは、システムで実現の可能不可能は問題ではなく、人間が > 理解できるのであれば、文脈から分かるものでも、なんでも名称として > 扱うべきだと主張されていました。これは変わったのでしょうか? > >おっと、そういう話しをしましたっけ? >このメイルで書いているように、ある程度は今の技術レベルを考えた方が >いいと思います。もう一歩でできるくらいのレベルは構いませんが、 >「アイスクリーム」が固有かどうか判断するのはまだまだと思います。 >もちろん、それだけの新たな課題を作って、挑戦的にやってもいいです。 >照応(CO)の課題なんかは、それを含んでいるかもしれませんね。 >でも確か正解率は50%くらいで、アイスクリームの例なんかは >ほとんどできないのではないでしょうか?(話がそれましたが) 今の技術レベルを全く無視することはできませんが、自分の枠だけ技術レベルの 枠を決めるのは危険だと思います。 また、NEの目的の一つに、MUC、METを知らない人にこれらの技術を 知ってもらうという目的があるのかもしれませんが、何のために名称 特定をやるのかという根本的な問題を忘れては、単にコンテストをやる ことだけが目的のコンテストになり、今後、この技術が情報抽出へ発展し、 なんらかの実用化システムへということにはならないと思います。 いくつかコンテストのための定義(単独の国名の扱いなど)を作って きましたが、それはコンテストをやる上で、曖昧性をなくす必要があった ためす。名称特定を何に使うかが決まっていない汎用的な名称特定では、 ほかに解決方法を見い出せなかったからです。 しかし、システムが実現可能性がないからというのを理由に、定義を曲げる のは私には納得できません。 -- Eriguchi  1, answered, filed,, Summary-line: 19-Nov eriguchi@lit.rd.nttdata.c #NE discusion Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id GAA20518 for ; Thu, 19 Nov 1998 06:40:15 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id GAA25223 for ; Thu, 19 Nov 1998 06:40:32 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id UAA08027 for ; Thu, 19 Nov 1998 20:40:32 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id UAA02712 for ; Thu, 19 Nov 1998 20:40:31 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id UAA05613 for ; Thu, 19 Nov 1998 20:40:28 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id UAA21598 for ; Thu, 19 Nov 1998 20:40:30 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA17822; Thu, 19 Nov 98 20:41:37 JST Date: Thu, 19 Nov 98 20:41:37 JST From: Yoshio Eriguchi Message-Id: <9811191141.AA17822@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 18 Nov 1998 11:26:24 -0500 (EST) <199811181626.LAA08233@noreen.cs.nyu.edu> Subject: NE discusion Content-Type: text Content-Length: 2268 *** EOOH *** Date: Thu, 19 Nov 98 20:41:37 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Wed, 18 Nov 1998 11:26:24 -0500 (EST) <199811181626.LAA08233@noreen.cs.nyu.edu> Subject: NE discusion Content-Type: text Content-Length: 2268 江里口です。 もし正解作成者側が共通の見解を示さなくてもよいのであれば、 議題を決めるのに重要な議論を優先して、議題について整理、 しましょう。もちろん余裕があれば、議論は並行して続けましょう。 #あまりにも、正解作成者の意見が違うと問題ありそうですので。 以下は、私が、これまでの議論をもとに考えた、優先度と 議事振興の関係から考えた項目の順番です。 「6. 固有物名について」は、なんかまだ消火不良のような気がして 廃止も含めて、議論する必要がある気がしています。ここがMETと違う ところの一つだということなので、うまく定義を整理したいところですが、 中途半端な状態では、悪評の原因となるかもしれません。 廃止案や、縮小案をいれるかどうかは関根さんの意見を尊重します。 「*」ではじまるものが、過去の議題に対応しています。 議題: 1. 対象データの範囲 2. 現行の定義を、この時点で変えることの是非 3. 固有名詞的表現の解釈 * 普通名詞が固有の物を指す場合 文脈の考え方の適用範囲 ※固有名詞的表現の定義に固有名詞、普通名詞が必要な場合は 固有名詞の定義案 4. 複合名称の扱い * 肩書きと一体化した名称 普通名詞化している複合名詞の扱い 地名+組織名の扱い ( * 3.1.3.A の組織前の国名の扱い) 5. 時間表現の「特定の時」の定義の解釈 (2の結果によっては、特定の時の定義追加/削除案を提案) 6. 固有物名について 問題点がないか聞く * 固有名とクラス * 法律・条約等の範囲 * 株は商品名か * サービス名 抽出対象の見直し (例:商品名だけに絞るなど) 7. その他 * 地名の概略表現 * 肩書きのみで、特定の個人を指す * 仮名 * 名称とその内容が明確に一致せず、固有名としてよいか分らない場合 議題の発表のときに当日のミーティングへの参加者希望者に関根さんと 私にメイルをくれるようにアナウンスしていただけないでしょうか? 資料の用意部数などの関係上、あるていど人数を予想したいです。 #もちろん飛び入りも受け付けますが、いまはあまりにも不明なので。 私がアナウンスしたほうがよければ、私の方からしますが、議題発表時に 一緒にアナウンスしたほうがきれいかなと思っています。 議題がなにか分かるまでは参加の判断もつかないでしょうし。 -- Eriguchi  1,, Summary-line: 19-Nov eriguchi@lit.rd.nttdata. #NE discusion Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id VAA29168 for ; Thu, 19 Nov 1998 21:33:31 -0500 (EST) Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id VAA05886 for ; Thu, 19 Nov 1998 21:33:50 -0500 (EST) Received: (from sekine@localhost) by noreen.cs.nyu.edu (8.9.1/8.9.1) id VAA09599; Thu, 19 Nov 1998 21:33:30 -0500 (EST) Date: Thu, 19 Nov 1998 21:33:30 -0500 (EST) From: Satoshi Sekine Message-Id: <199811200233.VAA09599@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Thu, 19 Nov 98 20:41:37 JST <9811191141.AA17822@pittsburgh.lit.rd.nttdata.co.jp> Subject: NE discusion Content-Type: text Content-Length: 677 *** EOOH *** Date: Thu, 19 Nov 1998 21:33:30 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Thu, 19 Nov 98 20:41:37 JST <9811191141.AA17822@pittsburgh.lit.rd.nttdata.co.jp> Subject: NE discusion Content-Type: text Content-Length: 677 江里口さん: メイルを読みました。今日は返事を書けませんが、 内容を参考にして明日(こちらの金曜に)議案などを作ります。 すみませんが、もう見直しの時間はないです。 (私は日曜に日本に出発します) たしかに「このまま問題には触れず、問題にならない事を祈る。」 というのがいいかもしれません。 :-) ただ、ひと事書くと、総務部と椅子の間に線を引く根拠については 述べられていませんし、私には考えつきません。この線引きと 総務部とエジブト支社との線引きの根拠の強さには明確な違いが 思いつきません。両方ともコンテストのための人工的なものであり、 それはそれなりに「決め」でしかないという事です。 関根  1,, Summary-line: 20-Nov eriguchi@lit.rd.nttdata.c #NE discusion Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id VAA29263 for ; Thu, 19 Nov 1998 21:57:06 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id VAA06028 for ; Thu, 19 Nov 1998 21:57:24 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id LAA19426 for ; Fri, 20 Nov 1998 11:57:19 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id LAA16695 for ; Fri, 20 Nov 1998 11:57:19 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id LAA11080 for ; Fri, 20 Nov 1998 11:57:16 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id LAA26753 for ; Fri, 20 Nov 1998 11:57:17 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA21123; Fri, 20 Nov 98 11:58:24 JST Date: Fri, 20 Nov 98 11:58:24 JST From: Yoshio Eriguchi Message-Id: <9811200258.AA21123@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Thu, 19 Nov 1998 21:33:30 -0500 (EST) <199811200233.VAA09599@noreen.cs.nyu.edu> Subject: NE discusion Content-Type: text Content-Length: 1082 *** EOOH *** Date: Fri, 20 Nov 98 11:58:24 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Thu, 19 Nov 1998 21:33:30 -0500 (EST) <199811200233.VAA09599@noreen.cs.nyu.edu> Subject: NE discusion Content-Type: text Content-Length: 1082 おつかれ様です。 >メイルを読みました。今日は返事を書けませんが、 >内容を参考にして明日(こちらの金曜に)議案などを作ります。 >すみませんが、もう見直しの時間はないです。 >(私は日曜に日本に出発します) 議題の項目のメイルですが、あれは私が思う優先順位で、 取捨選択については関根さんにお任せします。 >たしかに「このまま問題には触れず、問題にならない事を祈る。」 >というのがいいかもしれません。 :-) 結構、問題になりそうなものは、少数なものが多いので 意外とうまくいくかもと心の中では思っています。 最悪、問題になりそうな記事は試験に出さないという ちょっとずるい選択も残っています。 >ただ、ひと事書くと、総務部と椅子の間に線を引く根拠については >述べられていませんし、私には考えつきません。この線引きと >総務部とエジブト支社との線引きの根拠の強さには明確な違いが >思いつきません。両方ともコンテストのための人工的なものであり、 >それはそれなりに「決め」でしかないという事です。 これについては、日本でということで。 -- Eriguchi  1, answered,, Summary-line: 24-Nov eriguchi@lit.rd.nttdata.c #[irex 106] IREX NE dryrun is over Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id XAA10743 for ; Mon, 23 Nov 1998 23:53:28 -0500 (EST) Received: from ms.nttdata.co.jp (ms1.nttdata.co.jp [163.135.193.232]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id XAA24059 for ; Mon, 23 Nov 1998 23:53:50 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id NAA05956 for ; Tue, 24 Nov 1998 13:53:49 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id NAA09372 for ; Tue, 24 Nov 1998 13:53:49 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id NAA12998 for ; Tue, 24 Nov 1998 13:53:48 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id NAA26225 for ; Tue, 24 Nov 1998 13:53:47 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA01558; Tue, 24 Nov 98 13:54:47 JST Date: Tue, 24 Nov 98 13:54:47 JST From: Yoshio Eriguchi Message-Id: <9811240454.AA01558@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Mon, 23 Nov 98 22:33:52 EST <9811240333.AA01529@MERV.CS.NYU.EDU> Subject: [irex 106] IREX NE dryrun is over Content-Type: text Content-Length: 704 *** EOOH *** Date: Tue, 24 Nov 98 13:54:47 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Mon, 23 Nov 98 22:33:52 EST <9811240333.AA01529@MERV.CS.NYU.EDU> Subject: [irex 106] IREX NE dryrun is over Content-Type: text Content-Length: 704 江里口です。 >御指摘、ありがとうございます。 >他にも、最初の方の記事で「きょう」というのをDATEとして取るべき >であるのにとっていないというバグもみつかっております。 > >このような御指摘を歓迎します。 >バグを修正したデータを適切な時期に出したいと思います。 データの間違いがの指摘があった場合には、 その個所をどうするほうが正しいのかということも明示的に書いて いただいたほうが良いと思います。 関根さんのメイルは、時々、関根さんにとって暗黙の知識が、 メイルの文書から消え、関根さんが何を言おうとしているかが わからないことが時々ありましたので、お節介かとは思いま したが、指摘いたします。 -- Eriguchi  1,, Summary-line: 8-Dec eriguchi@lit.rd.nttdata. #NE new definition Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id RAA14984 for ; Tue, 8 Dec 1998 17:40:46 -0500 (EST) Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id RAA07157 for ; Tue, 8 Dec 1998 17:41:28 -0500 (EST) Received: (from sekine@localhost) by noreen.cs.nyu.edu (8.9.1/8.9.1) id RAA20394; Tue, 8 Dec 1998 17:41:24 -0500 (EST) Date: Tue, 8 Dec 1998 17:41:24 -0500 (EST) From: Satoshi Sekine Message-Id: <199812082241.RAA20394@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu Subject: NE new definition Content-Type: text Content-Length: 282 *** EOOH *** Date: Tue, 8 Dec 1998 17:41:24 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu Subject: NE new definition Content-Type: text Content-Length: 282 江里口さん: 先日はお世話になりました。 先日のミーティングを受けて新しいNEの定義を作成しました。 間違いがないかどうか見てくださいませんか? http://cs.nyu.edu/cs/projects/proteus/irex/NE/df981208.txt まだ一般公開はしていません。 関根  1, answered,, Summary-line: 10-Dec eriguchi@lit.rd.nttdata.c #NE new definition Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id EAA01391 for ; Thu, 10 Dec 1998 04:32:16 -0500 (EST) Received: from ms.nttdata.co.jp (ms1.nttdata.co.jp [163.135.193.232]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id EAA03788 for ; Thu, 10 Dec 1998 04:32:59 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id SAA00548 for ; Thu, 10 Dec 1998 18:32:53 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id SAA01132 for ; Thu, 10 Dec 1998 18:32:53 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id SAA01296 for ; Thu, 10 Dec 1998 18:32:52 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id SAA15340 for ; Thu, 10 Dec 1998 18:32:51 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA18380; Thu, 10 Dec 98 18:33:21 JST Date: Thu, 10 Dec 98 18:33:21 JST From: Yoshio Eriguchi Message-Id: <9812100933.AA18380@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu Cc: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Tue, 8 Dec 1998 17:41:24 -0500 (EST) <199812082241.RAA20394@noreen.cs.nyu.edu> Subject: NE new definition Content-Type: text Content-Length: 426 *** EOOH *** Date: Thu, 10 Dec 98 18:33:21 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu Cc: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Tue, 8 Dec 1998 17:41:24 -0500 (EST) <199812082241.RAA20394@noreen.cs.nyu.edu> Subject: NE new definition Content-Type: text Content-Length: 426 江里口です。 返事が遅れました。すみません。 >先日のミーティングを受けて新しいNEの定義を作成しました。 >間違いがないかどうか見てくださいませんか? > >http://cs.nyu.edu/cs/projects/proteus/irex/NE/df981208.txt > >まだ一般公開はしていません。 ちょっと見る暇がなかったので、明日までにチェックして返事をしようと 思います。それでよろしいでしょうか? -- Eriguchi  1,, Summary-line: 10-Dec eriguchi@lit.rd.nttdata. #NE new definition Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id UAA09587 for ; Thu, 10 Dec 1998 20:28:06 -0500 (EST) Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id UAA17048 for ; Thu, 10 Dec 1998 20:28:52 -0500 (EST) Received: (from sekine@localhost) by noreen.cs.nyu.edu (8.9.1/8.9.1) id UAA21746; Thu, 10 Dec 1998 20:28:47 -0500 (EST) Date: Thu, 10 Dec 1998 20:28:47 -0500 (EST) From: Satoshi Sekine Message-Id: <199812110128.UAA21746@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Thu, 10 Dec 98 18:33:21 JST <9812100933.AA18380@pittsburgh.lit.rd.nttdata.co.jp> Subject: NE new definition Content-Type: text Content-Length: 55 *** EOOH *** Date: Thu, 10 Dec 1998 20:28:47 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Thu, 10 Dec 98 18:33:21 JST <9812100933.AA18380@pittsburgh.lit.rd.nttdata.co.jp> Subject: NE new definition Content-Type: text Content-Length: 55 はい、時間ができたらお願いします。 関根  1, answered,, Summary-line: 11-Dec eriguchi@lit.rd.nttdata.c #NE new definition Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id DAA10799 for ; Fri, 11 Dec 1998 03:05:28 -0500 (EST) Received: from ms.nttdata.co.jp (ms1.nttdata.co.jp [163.135.193.232]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id DAA20354 for ; Fri, 11 Dec 1998 03:06:13 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id RAA00683 for ; Fri, 11 Dec 1998 17:06:07 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id RAA26591 for ; Fri, 11 Dec 1998 17:06:06 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id RAA11265 for ; Fri, 11 Dec 1998 17:06:06 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id RAA24862 for ; Fri, 11 Dec 1998 17:06:05 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA23026; Fri, 11 Dec 98 17:06:33 JST Date: Fri, 11 Dec 98 17:06:33 JST From: Yoshio Eriguchi Message-Id: <9812110806.AA23026@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Thu, 10 Dec 1998 20:28:47 -0500 (EST) <199812110128.UAA21746@noreen.cs.nyu.edu> Subject: NE new definition Content-Type: text Content-Length: 4140 *** EOOH *** Date: Fri, 11 Dec 98 17:06:33 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Thu, 10 Dec 1998 20:28:47 -0500 (EST) <199812110128.UAA21746@noreen.cs.nyu.edu> Subject: NE new definition Content-Type: text Content-Length: 4140 IREX NE定義(df981208)についてのコメントです。 まず最初にお詫びがあります。 以前指摘した、F-measureの計算方法ですが、 MUC-5の資料を見ますと、最初のやつの方があっていました。 私や、私の同僚が間違った方を覚えていたこと、原因でした。 誤: F-measure = (b + 1)*P*R / (b^2*P + R) 正: F-measure = (b^2 + 1)*P*R / (b^2*P + R) 関根さんのほうで、今一度御確認下さい。 ◎3.1.1.C 一般的な表現 > > 普通名詞のみを使っていたり、一般的な表現を使用し、 > 文脈を使用しないと特定の組織を > 認定できない場合には、それを抽出しない。 > > 福岡支店 > 総務部 コメント: 組織名だけに限らず、地名(首都)、固有物名(MMF、定期預金) なども対象になる定義だと思いますので、組織名に限定しないほうが いいと思います。 普通名詞のみの表現というのを入れたい気持ちは分かりますが、 (事実、この部分で、関根さんと私の誤解が生じてました) 「おばぁちゃん弁当」や「連合」なども、これに該当してしまい、 あまり強調するのは、新たな誤解を招く危険があると思います。 #でも、「連合」や「おばあちゃん弁当」は、文脈なしに固有名詞 #と分かるのかと苦情がくると、困ってしまいますね。 変更案: 「一般的な表現で、文脈を使用しないと固有の対象を認定できない 表現は、固有名詞的表現として抽出しない。」 でも、これでも今一つの気がします。関根さんに期待します。 あと例に、日本銀行福岡支店と首都を付け加えることをお進めします。 (首都は関根さんの意見でタグ付けしないことになったんですよね。) 福岡支店 #どこの支店か特定できない 日本銀行福岡支店 #どこの支店か特定できる 総務部 首都 ◎「3.1.B 助詞「の」、特殊記号 」の例 > 日本銀行福岡支店 > 日本銀行福岡支店 ここで分割してしまうと、福岡支店は、3.1.1.C 一般的な表現には 抵触しないのでしょうか? もし、これが抵触しないのであれば、3.1.1.Cの文脈の定義をはっきり する必要がありそうです。 前回のmeetingでは、「NTTの総務部」の総務部はタグなしになって いましたよね。 ◎3.2 時間表現 > 時間表現では、絶対的な表現(例えば、1998年5月14日)や,基点が明確であり絶 > 対的な時間が分るような相対的な表現(記事の日付を含む文脈に基点としての今日が明確 > である場合の「前日」)を抽出する。日時は、その単位が24時間以上である物を差し、時 > 間は、その単位が24時間以下であるものを指す。また、実時間のタイムライン上にマッピ > ングできる物は、その具体的な時期を確定できなくても時間表現とする。 こちらは確認です。 「ある夏の日」とか、「ロケにいった前日」なども、抽出するようになった のでしょうか。 ”実時間のタイムライン上にマッピングできる物は、その具体的な 時期を確定できなくても時間表現とする”ということであれば、 両者は、抽出対象になってしまうような気がします。 両者をどう扱うようになったのかが、私には不明です。 ◎3.1.4.A 商品と種類 >一般に商品を指す商標はすべて商品名であり、固有物名としてタグ付けする。 コメント: 商標は”すべて”商品名といいつつ、クラス名は固有物名でない、一般化した 商標はタグ付けしないなどの例外が多くあります。 [訂正案] 一般に商品を指す商標は、別途定める例外を除きすべて商品名であり、固有物 名としてタグ付けする。 >商標として登録されているかどうか怪しいと判断される物についてはOPTIONAL >のタグを振る。 コメント: 商品名を、商標登録されたものに限り、それ以外を商品名と定義したい のでない限り、OPTIONALを明記する必要がない、むしろ明記しない方が よいと思います。 > 商品の一般的な名称を表すものは固有物名ではなく、その名称のひとつの種類 > にあたる商品の名称は固有物名である これは、純粋に私には意味が分かりません。 どういう例に該当することを規定しようとしているのでしょうか? -- Eriguchi  1,, Summary-line: 11-Dec eriguchi@lit.rd.nttdata. #NE new definition Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id OAA14126 for ; Fri, 11 Dec 1998 14:14:12 -0500 (EST) Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id OAA26879 for ; Fri, 11 Dec 1998 14:14:58 -0500 (EST) Received: (from sekine@localhost) by noreen.cs.nyu.edu (8.9.1/8.9.1) id OAA22252; Fri, 11 Dec 1998 14:14:54 -0500 (EST) Date: Fri, 11 Dec 1998 14:14:54 -0500 (EST) From: Satoshi Sekine Message-Id: <199812111914.OAA22252@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Fri, 11 Dec 98 17:06:33 JST <9812110806.AA23026@pittsburgh.lit.rd.nttdata.co.jp> Subject: NE new definition Content-Type: text Content-Length: 299 *** EOOH *** Date: Fri, 11 Dec 1998 14:14:54 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Fri, 11 Dec 98 17:06:33 JST <9812110806.AA23026@pittsburgh.lit.rd.nttdata.co.jp> Subject: NE new definition Content-Type: text Content-Length: 299 どうもありがとうございました。 F-measureの件ですが、僕も確認をしないでいてすみませんでした。 MUC6でも2乗になっていましたので、2乗でいいのでしょう。 その他、書き直したのがdf981211.txtにあります。 (特に急いで見てもらうではありませんが、とりあえず) 関根  1, answered,, Summary-line: 14-Dec eriguchi@lit.rd.nttdata.c #NE new definition Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id UAA08730 for ; Sun, 13 Dec 1998 20:17:53 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id UAA25198 for ; Sun, 13 Dec 1998 20:18:38 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id KAA21055 for ; Mon, 14 Dec 1998 10:18:29 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id KAA23054 for ; Mon, 14 Dec 1998 10:18:29 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id KAA20900 for ; Mon, 14 Dec 1998 10:18:28 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id KAA12096 for ; Mon, 14 Dec 1998 10:18:28 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA00333; Mon, 14 Dec 98 10:18:51 JST Date: Mon, 14 Dec 98 10:18:51 JST From: Yoshio Eriguchi Message-Id: <9812140118.AA00333@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Fri, 11 Dec 1998 14:14:54 -0500 (EST) <199812111914.OAA22252@noreen.cs.nyu.edu> Subject: NE new definition Content-Type: text Content-Length: 569 *** EOOH *** Date: Mon, 14 Dec 98 10:18:51 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Fri, 11 Dec 1998 14:14:54 -0500 (EST) <199812111914.OAA22252@noreen.cs.nyu.edu> Subject: NE new definition Content-Type: text Content-Length: 569 江里口です。 >その他、書き直したのがdf981211.txtにあります。 >(特に急いで見てもらうではありませんが、とりあえず) df981211.txtにアクセスしようとすると、 Forbidden Your client is not allowed to access the requested object. というメッセージがでます。 パーミッション等は大丈夫でしょうか? それともこちらの問題でしょうか? わたしの状況は、 df981027.txtにはアクセスできます。 df981210.txtは存在しなくなったように見受けられます。 df981211.txtはアクセスが許可されないようです。 -- Eriguchi  1,, Summary-line: 13-Dec eriguchi@lit.rd.nttdata. #NE new definition Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id VAA08995 for ; Sun, 13 Dec 1998 21:11:55 -0500 (EST) Received: from noreen.cs.nyu.edu (noreen.cs.nyu.edu [128.122.140.11]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id VAA25999 for ; Sun, 13 Dec 1998 21:12:44 -0500 (EST) Received: (from sekine@localhost) by noreen.cs.nyu.edu (8.9.1/8.9.1) id VAA23310; Sun, 13 Dec 1998 21:12:40 -0500 (EST) Date: Sun, 13 Dec 1998 21:12:40 -0500 (EST) From: Satoshi Sekine Message-Id: <199812140212.VAA23310@noreen.cs.nyu.edu> To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Mon, 14 Dec 98 10:18:51 JST <9812140118.AA00333@pittsburgh.lit.rd.nttdata.co.jp> Subject: NE new definition Content-Type: text Content-Length: 112 *** EOOH *** Date: Sun, 13 Dec 1998 21:12:40 -0500 (EST) From: Satoshi Sekine To: eriguchi@lit.rd.nttdata.co.jp Cc: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Mon, 14 Dec 98 10:18:51 JST <9812140118.AA00333@pittsburgh.lit.rd.nttdata.co.jp> Subject: NE new definition Content-Type: text Content-Length: 112 It should be alright now. (Sorry.) The previous one must be 1208 rather than 1210, doesn't it? Satoshi Sekine  1, answered,, Summary-line: 14-Dec eriguchi@lit.rd.nttdata.c #NE new definition Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id VAA09027 for ; Sun, 13 Dec 1998 21:19:43 -0500 (EST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id VAA26050 for ; Sun, 13 Dec 1998 21:20:32 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id LAA28080 for ; Mon, 14 Dec 1998 11:20:29 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id LAA29468 for ; Mon, 14 Dec 1998 11:20:29 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id LAA22080 for ; Mon, 14 Dec 1998 11:20:28 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id LAA12967 for ; Mon, 14 Dec 1998 11:20:27 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA00562; Mon, 14 Dec 98 11:20:50 JST Date: Mon, 14 Dec 98 11:20:50 JST From: Yoshio Eriguchi Message-Id: <9812140220.AA00562@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Sun, 13 Dec 1998 21:12:40 -0500 (EST) <199812140212.VAA23310@noreen.cs.nyu.edu> Subject: NE new definition Content-Type: text Content-Length: 308 *** EOOH *** Date: Mon, 14 Dec 98 11:20:50 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Sun, 13 Dec 1998 21:12:40 -0500 (EST) <199812140212.VAA23310@noreen.cs.nyu.edu> Subject: NE new definition Content-Type: text Content-Length: 308 江里口です。 >It should be alright now. (Sorry.) >The previous one must be 1208 rather than 1210, doesn't it? 読めるようになりました。 ありがとうございます。 たしかに、前のバージョンは、df981208.txtでした。 なぜか、1210だと信じこんでいました。 -- Eriguchi  1,, Summary-line: 16-Dec eriguchi@lit.rd.nttdata.c #NE new definition Received: from cs.nyu.edu (cs.nyu.edu [128.122.80.78]) by griffin.cs.nyu.edu (8.9.1/8.9.1) with ESMTP id EAA20524 for ; Wed, 16 Dec 1998 04:36:53 -0500 (EST) Received: from ms.nttdata.co.jp (ms1.nttdata.co.jp [163.135.193.232]) by cs.nyu.edu (8.9.1/8.9.1) with ESMTP id EAA06212 for ; Wed, 16 Dec 1998 04:37:45 -0500 (EST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id SAA20719 for ; Wed, 16 Dec 1998 18:37:42 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id SAA00604 for ; Wed, 16 Dec 1998 18:37:42 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id SAA28716 for ; Wed, 16 Dec 1998 18:37:41 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8+Sun/3.6W-lit-server-05/22/98) with SMTP id SAA10152 for ; Wed, 16 Dec 1998 18:37:40 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA12637; Wed, 16 Dec 98 18:37:59 JST Date: Wed, 16 Dec 98 18:37:59 JST From: Yoshio Eriguchi Message-Id: <9812160937.AA12637@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Fri, 11 Dec 1998 14:14:54 -0500 (EST) <199812111914.OAA22252@noreen.cs.nyu.edu> Subject: NE new definition Content-Type: text Content-Length: 1060 *** EOOH *** Date: Wed, 16 Dec 98 18:37:59 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu In-Reply-To: Satoshi Sekine's message of Fri, 11 Dec 1998 14:14:54 -0500 (EST) <199812111914.OAA22252@noreen.cs.nyu.edu> Subject: NE new definition Content-Type: text Content-Length: 1060 江里口です。 定義df981211.txtについてのコメントです。 OPTIONALのタグのタイプは、とりあえずこれでいいと思います。 あと付け加えるとすれば、範囲が曖昧な場合のOPTIONALというのが あるとは思いますが、これは、でてきてから考えましょう。 日本銀行福岡支店 日本銀行福岡支店 日本銀行福岡支店 これは 日本銀行福岡支店 日本銀行福岡支店 か、 日本銀行福岡支店 日本銀行福岡支店 だと思います。 もしぜんしゃであれば、文脈の定義の解説が必要というのは前回のメイルの とおりです。 あとは、よいと思います。 -- Eriguchi