BABYL OPTIONS: Version: 5 Labels: Note: This is the header of an rmail file. Note: If you are seeing it in rmail, Note: it means the file has no messages in it.  1, filed, answered,, Summary-line: 8-Oct kando@rd.nacsis.ac.jp #[irex 60] CFP: NACSIS Collection Workshop Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id IAA13644; Thu, 8 Oct 1998 08:51:36 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id IAA13775; Thu, 8 Oct 1998 08:51:32 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id VAA13406; Thu, 8 Oct 1998 21:46:53 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id VAA16805; Thu, 8 Oct 1998 21:46:51 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id VAA28015; Thu, 8 Oct 1998 21:40:57 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id VAA28009 for ; Thu, 8 Oct 1998 21:40:56 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id VAA20168 for ; Thu, 8 Oct 1998 21:41:40 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id VAA16793 for ; Thu, 8 Oct 1998 21:46:47 +0900 (JST) Received: from atlas.rd.nacsis.ac.jp (atlas.rd.nacsis.ac.jp [136.187.19.12]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id VAA06268 for ; Thu, 8 Oct 1998 21:46:46 +0900 (JST) Received: from lune.rd.nacsis.ac.jp (lune.rd.nacsis.ac.jp [136.187.41.48]) by atlas.rd.nacsis.ac.jp (8.8.7+2.7Wbeta7/3.6Wbeta7/97112517) with SMTP id VAA08604 for ; Thu, 8 Oct 1998 21:47:06 +0900 (JST) Received: by lune.rd.nacsis.ac.jp (SMI-8.6/SMI-SVR4) id VAA12626; Thu, 8 Oct 1998 21:48:44 +0900 Date: Thu, 8 Oct 1998 21:48:44 +0900 From: kando@rd.nacsis.ac.jp (Noriko Kando) Message-Id: <199810081248.VAA12626@lune.rd.nacsis.ac.jp> To: irex@karc.crl.go.jp Cc: kando@rd.nacsis.ac.jp X-Sun-Charset: ja_JP.iso2022-7 Reply-To: irex@karc.crl.go.jp X-Sequence: irex 60 Subject: [irex 60] CFP: NACSIS Collection Workshop Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 8585 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Thu, 8 Oct 1998 21:48:44 +0900 From: kando@rd.nacsis.ac.jp (Noriko Kando) To: irex@karc.crl.go.jp Cc: kando@rd.nacsis.ac.jp X-Sun-Charset: ja_JP.iso2022-7 Reply-To: irex@karc.crl.go.jp X-Sequence: irex 60 Subject: [irex 60] CFP: NACSIS Collection Workshop Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 8585 IREXのみなさま: 学情センターの神門 典子です。 この場をかりて、NACSISテストコレクションを使ったTREC型のワーク ショップの参加者募集をご紹介させていただきます。(重複して受け 取られた方は、どうぞ、ご容赦ください) 参加申込の期日が10月末に迫っておりますが、日本語情報検索、言語 横断検索(cross-lingual IR)、専門用語の抽出などにご関心がある方 々は、どうぞ、ご参加ください。 なお、成果報告会の日程は、1999年7月とお知らせしておりますが、 IREXと合同開催(また、連続開催)の可能性について検討を進めてい ます。日程などについてのご要望、ご意見などもお寄せいただければ、 幸いです。 詳しくは、http://www.rd.nacsis.ac.jp/project/test-collection/ または、http://www.rd.nacsis.ac.jp/~ntcadm/workshop/ をご覧ください。 よろしくお願いいたします。 神門 典子. ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ NACSISコレクション・ワークショップ、参加者募集のお知らせ (Call for Participation) 学術情報センター研究開発部 NACSISテストコレクション・プロジェクト             協賛: 情報処理学会 学術情報センター研究開発部では、学術情報センターが提供しているデータ ベースの一部を用いて、情報検索システム評価用のテストコレクションを構 築し、研究目的で公開することを計画しています。今回、その過程で、下記 のように、日英の約33万件の学会発表論文の抄録データを含む「テストコレ クション1」を用いた、コンペティション型のワークショップを開催いたし ますので、ご案内いたします。 ●ワークショップの目的 ・テストコレクションを提供することにより、日本語をもちいた情  報検索、言語横断検索および関連分野の研究を促進する。 ・各種手法の比較を可能にし、効果に関する分析的比較および研究  者間の意見交換を促進する。 ・参加者からのフィードバックにより、正解文書の候補を網羅的に 収集するとともに、テストコレクションの質的向上を図る。 ●データ(テストコレクション1): ・検索対象となる文書(国内の65学会における発表論文の抄録約33万件。  半数以上は、日本語・英語の対訳。) ・検索課題とそれに対する正解文書のリスト ・タグ付きコーパス(一部の文書には、語構成要素まで考慮した詳細な形  態素タグを付与してあります。) ●スケジュール: 1998年 10月末日まで: このメールの末尾に添付した申込書をEメールで         お送りください。 11月初旬: データCDの配布:       データ使用許諾に必要な覚書を提出済みの参加者へデータCDを 発送開始。訓練用検索課題とその正解文書リストは、Web page によって配布。 1999年 2月 8日: 評価用検索課題/評価用データの配布 3月 1日: 検索結果提出 5月中旬: 正解判定結果の通知 5月末日: 成果報告会での発表申込締め切り 6月21日: 成果報告会会議録用のカメラ・レディ原稿の提出 7月末頃: 成果報告会 (於: 東京) 9月末:  テストコレクション1(本格版)配布開始予定   ※成果報告会は、IREX(http://cs.nyu.edu/cs/projects/proteus/irex/)    の成果報告会(1999年9月)と合同開催にする方向で検討を進めています。    日程についてのご要望、ご意見をお寄せください。 ●タスク: 参加者は、下記の1つ以上のタスクを行なってください。 ・随時検索タスク(ad hoc IR task):   特定のデータベースに対して、新しい検索課題の検索を行い、その検索   性能を調べる。 ・言語横断検索タスク (cross-lingual IR task):   日本語の検索課題を用いて、英語の文献を検索する。 ・用語抽出・役割分析タスク (automatic term recognition and role analysis):   コーパスの一部(人工知能学会関係)の標題及び抄録から、(a) 用語を   抽出し、(b) 抄録の主要論述における「対象」「手法」「主操作」を表   わす用語を識別する。 ●参加申込・問合せ: 参加申し込みは、1998年10月末日までに、参加申込書をお送りください。その 他、ご質問、ご意見、賛同なども、お気軽にntcadm@rd.nacsis.ac.jpに電子メ イルでご連絡ください。 継続的に情報提供をご希望の方には、メーリングリストntcir@rd.nacsis.ac.jp があります。メーリングリストへの参加は、majordomo@rd.nacsis.ac.jpへ、        subscribe ntcir 自分のメールアドレス   という内容のメールを送ってください。 ●その他: ○参加資格:成果報告会には、上記タスクのいずれかを遂行した研究グループお  よび主催・共催機関の関係者が参加できます。 ○会議録: 成果報告会の発表論文は、会議録として刊行します。 ○「NACSISテストコレクション1」を用いた研究成果を成果報告会以外での場で  発表することは可能ですが、データ使用許諾に関する覚書の制約により、テス  トコレクションを用いたいかなる結果およびワークショップの成果を、商品の  宣伝に用いることはできません。詳しくは、覚書をご参照ください。 ○ワークショップ用に配布する「テストコレクション1(テスト版)」の有効期限  は、「テストコレクション1(本格版)」が配布されるまでです。その後、継続 して使用を希望される場合は、あらためて、「テストコレクション1(本格版)」 の使用許諾に関する覚書を取り交わします。 ●参考文献: 1. Kando, N. et al. "NTCIR : NACSIS Test Collection Project "[Poster] the   20th Annual Collquium of BCS-IRSG, March 25-27, 1997, Autrans, France. 2. Kageura, K. et al. "NACSIS Corpus Project for IR and Terminological Research". Natural Language Processing Pacific Rim Symposium '97, 2-5 December, 1997 at Phuket, Thailand, p. 493-496. ●詳しくは、下記をご参照ください。 ・テストコレクション・プロジェクトについて:    http://www.rd.nacsis.ac.jp/projects/test-collection/ ・ワークショップ(コンペティション)について:    http://www.rd.nacsis.ac.jp/~ntcadm/workshop/ ++++++++++++++++++++++>8++++++++++++++>8+++++++++++++>8+++++++++++++++++++++ NACSISコレクション・ワークショップ参加申込書 NACSISコレクション・ワークショップに参加します。 ======================================================================== 参加者名、連絡先等 ======================================================================== 1.参加チーム名: 2.略称:(英数字5文字まで) 3.代表者: 氏名 所属 Eメール URL 住所 電話 FAX 4.連絡先:(3と異なる場合のみ) 氏名 所属 Eメール URL 住所 電話 FAX 5.チーム構成員氏名、所属、およびEメール: 氏名           Eメール         所属 ___________  ___________  ____________ ___________  ___________  ____________ ___________  ___________  ____________ ___________  ___________  ____________ ___________  ___________  ____________ ___________  ___________  ____________ ___________  ___________  ____________ ___________  ___________  ____________ ======================================================================== システムの説明 ======================================================================== 6.検索手法、アプローチの概要・特色 ======================================================================== 参加の種類、結果の公表 ======================================================================== 7.参加の種類 A.通常; システムについても詳しく報告する. B.結果のみ; 評価結果だけを報告する。システムの詳細については、  差し障りがある部分は報告しなくてもよい。 ** notes ** 結果の発表などにおいて、研究代表者名、所属、研究グループメンバ名などを公 表できない(略称のみで参照されることを希望する)方は、ここをチェック してください。   名前を公表できない ___ 8.参加するタスク 随時検索 言語横断検索 用語抽出・役割分析 9.特記事項 +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++  1, filed,, Summary-line: 8-Oct to: irex@karc.crl.go.jp #[irex 61] NACSIS & IREX Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id JAA13681; Thu, 8 Oct 1998 09:04:04 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id JAA13888; Thu, 8 Oct 1998 09:04:02 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id VAA13515; Thu, 8 Oct 1998 21:59:21 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id VAA17053; Thu, 8 Oct 1998 21:59:19 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id VAA28093; Thu, 8 Oct 1998 21:53:25 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id VAA28088 for ; Thu, 8 Oct 1998 21:53:24 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id VAA20178 for ; Thu, 8 Oct 1998 21:54:08 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id VAA17048 for ; Thu, 8 Oct 1998 21:59:16 +0900 (JST) Received: from noreen.cs.nyu.edu (NOREEN.CS.NYU.EDU [128.122.140.11]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with SMTP id VAA06381 for ; Thu, 8 Oct 1998 21:59:14 +0900 (JST) Received: by noreen.cs.nyu.edu (SMI-8.6/1.20) id IAA00404; Thu, 8 Oct 1998 08:59:13 -0400 Date: Thu, 8 Oct 1998 08:59:13 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810081259.IAA00404@noreen.cs.nyu.edu> To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu Reply-To: irex@karc.crl.go.jp X-Sequence: irex 61 Subject: [irex 61] NACSIS & IREX Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 1096 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Thu, 8 Oct 1998 08:59:13 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu Reply-To: irex@karc.crl.go.jp X-Sequence: irex 61 Subject: [irex 61] NACSIS & IREX Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 1096 NACSIS & IREX 関根 (NYU)                      神門 (学情) NACSISテストコレクションを使ったIRと用語抽出のコン ペティション型ワークショップのアナウンスがありました。 この中のIRタスクの内容は、IREXのIRにも通じ、皆さん の中には何故別々のコンテストの形式でやるのか、一緒にやれな いのかという疑問があると思います。別々のコンテストという形 をとるのは、データの使用許諾などの事情が異なるなどの運営上 の理由からです。 神門と関根はこれまで数ヶ月に渡りメイル等で情報を交換し、状 況を理解しあった上、協力してやっていこうという事になってい ます。例えば、各種のフォーマットを共通化する。成果報告会を どのような形にせよ一緒に開催したい等々の点で合意しています。 特に、IREXは新聞記事を対象とし、NACSISワークショ ップは学術文書を対象としおり、両者の比較も、IR研究にとって 興味深いものだと思います。 どうぞ、御理解の上、共に多数の方の参加をお待ちしております。  1, filed, answered,, Summary-line: 9-Oct tsuya.sakai@toshiba.co.jp #[irex 62] Re: NACSIS & IREX Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id VAA22775; Thu, 8 Oct 1998 21:37:24 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id VAA25325; Thu, 8 Oct 1998 21:37:20 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id KAA17677; Fri, 9 Oct 1998 10:32:53 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id KAA29729; Fri, 9 Oct 1998 10:32:51 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id KAA01576; Fri, 9 Oct 1998 10:26:57 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id KAA01570 for ; Fri, 9 Oct 1998 10:26:56 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id KAA20612 for ; Fri, 9 Oct 1998 10:27:39 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id KAA29724 for ; Fri, 9 Oct 1998 10:32:47 +0900 (JST) Received: from inet-tsb.toshiba.co.jp (inet-tsb.toshiba.co.jp [202.33.96.40]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id KAA14057 for ; Fri, 9 Oct 1998 10:32:46 +0900 (JST) Received: from tis2.tis.toshiba.co.jp by inet-tsb.toshiba.co.jp (8.8.8/3.3W9-04/12/95) id KAB22437; Fri, 9 Oct 1998 10:32:44 +0900 (JST) Received: from mx.toshiba.co.jp by tis2.tis.toshiba.co.jp (8.8.4+2.7Wbeta4/3.3W9-95082317) id KAA02348; Fri, 9 Oct 1998 10:32:44 +0900 (JST) Received: by toshiba.co.jp (8.7.1+2.6Wbeta4/3.3W9-TOSHIBA-GLOBAL SERVER) id KAA21261; Fri, 9 Oct 1998 10:32:43 +0900 (JST) Message-Id: <199810090132.KAA21261@toshiba.co.jp> To: irex@karc.crl.go.jp, ntcir@rd.nacsis.ac.jp In-reply-to: Your message of "Thu, 08 Oct 1998 08:59:13 -0400." <199810081259.IAA00404@noreen.cs.nyu.edu> Date: Fri, 09 Oct 1998 10:32:40 +0900 From: "Tetsuya SAKAI" Reply-To: irex@karc.crl.go.jp X-Sequence: irex 62 Subject: [irex 62] Re: NACSIS & IREX Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 2396 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f To: irex@karc.crl.go.jp, ntcir@rd.nacsis.ac.jp In-reply-to: Your message of "Thu, 08 Oct 1998 08:59:13 -0400." <199810081259.IAA00404@noreen.cs.nyu.edu> Date: Fri, 09 Oct 1998 10:32:40 +0900 From: "Tetsuya SAKAI" Reply-To: irex@karc.crl.go.jp X-Sequence: irex 62 Subject: [irex 62] Re: NACSIS & IREX Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 2396 東芝の酒井と申します。 現在IREX-IRに参加予定で、 NACSIS ad hoc + crosslingualにも参加できるように会社を説得中です。 私の要望: 1. フォーマットについて 是非共通化して欲しいです。 共通化してもらわないと両方参加は厳しいかも。 例えば検索結果のフォーマットですが、 今のところIREXではties(同順位記事)は許さない、 NACSISは許す、というようになっているようですが、 このへんのすりあわせはされるのでしょうか。 まあ300件提出、1,000件提出という違いも重要ではあると思いますが これはリソースの関係で違ってきてしまうのでしょうね。 2. ワークショップについて 合同あるいは連続開催を望みます。 時期は7月でも9月でも仕方ないですが、 これ以上伸びないことを望みます。 >>>>> On Thu, 8 Oct 1998 08:59:13 -0400, sekine@noreen.cs.nyu.edu (Satoshi Sekine) said: >> NACSIS & IREX >> >> 関根 (NYU) >>                      神門 (学情) >> NACSISテストコレクションを使ったIRと用語抽出のコン >> ペティション型ワークショップのアナウンスがありました。 >> この中のIRタスクの内容は、IREXのIRにも通じ、皆さん >> の中には何故別々のコンテストの形式でやるのか、一緒にやれな >> いのかという疑問があると思います。別々のコンテストという形 >> をとるのは、データの使用許諾などの事情が異なるなどの運営上 >> の理由からです。 >> 神門と関根はこれまで数ヶ月に渡りメイル等で情報を交換し、状 >> 況を理解しあった上、協力してやっていこうという事になってい >> ます。例えば、各種のフォーマットを共通化する。成果報告会を >> どのような形にせよ一緒に開催したい等々の点で合意しています。 >> >> 特に、IREXは新聞記事を対象とし、NACSISワークショ >> ップは学術文書を対象としおり、両者の比較も、IR研究にとって >> 興味深いものだと思います。 >> どうぞ、御理解の上、共に多数の方の参加をお待ちしております。 ◆◇ 酒井 哲也 tetsuya.sakai@toshiba.co.jp ◇◆ ◇◆ (株)東芝 研究開発センター 情報・通信システム研究所 ◆◇ ◆◇ ヒューマン・インタフェース技術センター TEL:044-549-2240 ◇◆ ◇◆ http://club.pep.ne.jp/~sakai3 FAX:044-520-1308 ◆◇  1, filed,, Summary-line: 9-Oct kando@rd.nacsis.ac.jp #[irex 63] Re: [ntcir:3] Re: NACSIS & IREX Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id AAA23554; Fri, 9 Oct 1998 00:02:53 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id AAA26511; Fri, 9 Oct 1998 00:02:49 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id MAA19537; Fri, 9 Oct 1998 12:58:05 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id MAA04963; Fri, 9 Oct 1998 12:58:03 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id MAA03605; Fri, 9 Oct 1998 12:52:09 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id MAA03600 for ; Fri, 9 Oct 1998 12:52:08 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id MAA20830 for ; Fri, 9 Oct 1998 12:52:52 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id MAA04958 for ; Fri, 9 Oct 1998 12:57:59 +0900 (JST) Received: from atlas.rd.nacsis.ac.jp (atlas.rd.nacsis.ac.jp [136.187.19.12]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id MAA16963 for ; Fri, 9 Oct 1998 12:57:59 +0900 (JST) Received: from lune.rd.nacsis.ac.jp (lune.rd.nacsis.ac.jp [136.187.41.48]) by atlas.rd.nacsis.ac.jp (8.8.7+2.7Wbeta7/3.6Wbeta7/97112517) with SMTP id MAA08855; Fri, 9 Oct 1998 12:57:04 +0900 (JST) Received: by lune.rd.nacsis.ac.jp (SMI-8.6/SMI-SVR4) id MAA12999; Fri, 9 Oct 1998 12:58:42 +0900 Date: Fri, 9 Oct 1998 12:58:42 +0900 From: kando@rd.nacsis.ac.jp (Noriko Kando) Message-Id: <199810090358.MAA12999@lune.rd.nacsis.ac.jp> To: irex@karc.crl.go.jp, ntcir@rd.nacsis.ac.jp X-Sun-Charset: ja_JP.iso2022-7 Reply-To: irex@karc.crl.go.jp X-Sequence: irex 63 Subject: [irex 63] Re: [ntcir:3] Re: NACSIS & IREX Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 1330 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Fri, 9 Oct 1998 12:58:42 +0900 From: kando@rd.nacsis.ac.jp (Noriko Kando) To: irex@karc.crl.go.jp, ntcir@rd.nacsis.ac.jp X-Sun-Charset: ja_JP.iso2022-7 Reply-To: irex@karc.crl.go.jp X-Sequence: irex 63 Subject: [irex 63] Re: [ntcir:3] Re: NACSIS & IREX Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 1330 神門です。 レスポンスありがとうございます。 >> 東芝の酒井と申します。 >> >> 現在IREX-IRに参加予定で、 >> NACSIS ad hoc + crosslingualにも参加できるように会社を説得中です。 ありがとうございます。 >> 私の要望: >> >> 1. フォーマットについて >> >> 是非共通化して欲しいです。 >> 共通化してもらわないと両方参加は厳しいかも。 >> 例えば検索結果のフォーマットですが、 >> 今のところIREXではties(同順位記事)は許さない、 >> NACSISは許す、というようになっているようですが、 >> このへんのすりあわせはされるのでしょうか。 NACSISでは、recall/precisionの算出は、TRECの評価プログラムまたは それと同等のものを使う予定です。 IREXについては、関根さんから、後ほど、正式にアナウンスがあると思 いますが、TRECのものを使おうという方向でお話をしています。 TRECのプログラムでは、READMEによると、検索結果のランクは無視され ます。 TRECの評価プログラムは、Cornell大学のanonymous ftpサイトからどな たでも入手可能です。NACSISワークショップとIREXで使うことについて は、口頭ではありますが、TRECのprogram maneger、Dr Ellen Voorhees の了解は得ています。 よろしくお願いいたします。 神門 典子.  1,, Summary-line: 9-Oct to: irex@karc.crl.go.jp #[irex 64] Re: NACSIS & IREX Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id HAA24967; Fri, 9 Oct 1998 07:28:35 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id HAA29532; Fri, 9 Oct 1998 07:28:31 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id UAA24758; Fri, 9 Oct 1998 20:24:36 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id UAA20022; Fri, 9 Oct 1998 20:24:35 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id UAA09018; Fri, 9 Oct 1998 20:18:41 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id UAA09013 for ; Fri, 9 Oct 1998 20:18:40 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id UAA21326 for ; Fri, 9 Oct 1998 20:19:23 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id UAA20017 for ; Fri, 9 Oct 1998 20:24:31 +0900 (JST) Received: from nonki.cs.nyu.edu (NONKI.CS.NYU.EDU [128.122.140.99]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with SMTP id UAA24517 for ; Fri, 9 Oct 1998 20:24:29 +0900 (JST) Received: by nonki.cs.nyu.edu (SMI-8.6/1.20) id HAA12647; Fri, 9 Oct 1998 07:24:28 -0400 Date: Fri, 9 Oct 1998 07:24:28 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810091124.HAA12647@nonki.cs.nyu.edu> To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: "Tetsuya SAKAI"'s message of Fri, 09 Oct 1998 10:32:40 +0900 <199810090132.KAA21261@toshiba.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 64 Subject: [irex 64] Re: NACSIS & IREX Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 1531 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Fri, 9 Oct 1998 07:24:28 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: "Tetsuya SAKAI"'s message of Fri, 09 Oct 1998 10:32:40 +0900 <199810090132.KAA21261@toshiba.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 64 Subject: [irex 64] Re: NACSIS & IREX Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 1531 1. フォーマットについて 是非共通化して欲しいです。 IREXの方では、これまで示してきたSGMLのフォーマットと NACSISが採用したTRECのフォーマットの両方のフォーマットを受け 付ける事にしました。(最新のIRの定義にはそのようにあります。) 変換プログラムをIREXで作成し、公開いたします。(実際の試験の 際には、こちらで変換します。) スコアラも神門さんが紹介されていた TRECのを使用する予定でいます。同順位は確かに問題ですが、現在の所、 IREXフォーマットでは必須である順位を重視し、TRECフォーマット ではSIMの値を重視するという考えでいます。この点から派生する差に ついては無視できる範囲だと考えています。提出件数は対象データの件数が 違うので、その辺りの関係でしょうが、IREXの方で1000件まで もらっておいて300件以降は見ないというのは、簡単に実現できます。 2. ワークショップについて 合同あるいは連続開催を望みます。 時期は7月でも9月でも仕方ないですが、 これ以上伸びないことを望みます。 NACSISの方は参加者の資格に制限があるので、完全に合同というのは 現状では難しいと思っています。連続開催が現実的だと思います。 開催日程はIREXの方は9月で決定しました。 IREXの方は正解判定をボランティアに頼っている事もあり、 これ以上早く開催するのは危険だと思っています。この点は、 是非NACSISの方で合せていただきたいと思っています。 IREXの方はこれ以上伸びる事はないと考えていただいて結構です。 関根  1, filed,, Summary-line: 11-Oct to: irex@karc.crl.go.jp #[irex 65] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id VAA05972; Sun, 11 Oct 1998 21:37:03 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id VAA01194; Sun, 11 Oct 1998 21:37:01 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id KAA09807; Mon, 12 Oct 1998 10:31:50 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id KAA24715; Mon, 12 Oct 1998 10:31:48 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id KAA01579; Mon, 12 Oct 1998 10:25:54 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id KAA01572 for ; Mon, 12 Oct 1998 10:25:53 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id JAA00192 for ; Mon, 12 Oct 1998 09:30:29 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id DAA17909 for ; Mon, 12 Oct 1998 03:47:28 +0900 (JST) Received: from noreen.cs.nyu.edu (NOREEN.CS.NYU.EDU [128.122.140.11]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with SMTP id DAA09876 for ; Mon, 12 Oct 1998 03:47:27 +0900 (JST) Received: by noreen.cs.nyu.edu (SMI-8.6/1.20) id OAA02377; Sun, 11 Oct 1998 14:47:21 -0400 Date: Sun, 11 Oct 1998 14:47:21 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810111847.OAA02377@noreen.cs.nyu.edu> To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu Reply-To: irex@karc.crl.go.jp X-Sequence: irex 65 Subject: [irex 65] NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 591 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Sun, 11 Oct 1998 14:47:21 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu Reply-To: irex@karc.crl.go.jp X-Sequence: irex 65 Subject: [irex 65] NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 591 IREXメイリングリストの皆様: NE定義の修正の期限が1週間に迫っております。 問題があると思われる方は早目に申し出てください。 The amendment period to the NE definition will be closed in a week. Please speak up if you think it is needed. なお、13日から15日はTipsterの最後のワークショップです。 私はそれに出席するため、今週はほとんど大学には来ず、 メイルのアクセスが悪くなる可能性があります。またワークショップでは IREXの紹介をし、「Tipster終れども、その精神死なず」というような話を してきます。 関根  1, filed,, Summary-line: 12-Oct yogawa@charlie.src.ricoh. #[irex 66] Re: NACSIS & IREX Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id WAA06097; Sun, 11 Oct 1998 22:38:26 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id WAA01599; Sun, 11 Oct 1998 22:38:23 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id LAA10797; Mon, 12 Oct 1998 11:33:29 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id LAA27337; Mon, 12 Oct 1998 11:33:27 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id LAA02632; Mon, 12 Oct 1998 11:27:33 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id LAA02627 for ; Mon, 12 Oct 1998 11:27:32 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id LAA00509 for ; Mon, 12 Oct 1998 11:28:14 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id LAA27329 for ; Mon, 12 Oct 1998 11:33:23 +0900 (JST) Received: from ricohigw.ricoh.co.jp (ricohigw.ricoh.co.jp [202.32.12.1]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id LAA14101 for ; Mon, 12 Oct 1998 11:33:21 +0900 (JST) Received: from charlie.src.ricoh.co.jp (charlie.src.ricoh.co.jp [133.139.213.4]) by ricohigw.ricoh.co.jp (8.8.8+2.7Wbeta7/3.6Wbeta7) with ESMTP id LAA16859; Mon, 12 Oct 1998 11:33:13 +0900 (JST) Received: from charlie (localhost [127.0.0.1]) by charlie.src.ricoh.co.jp (8.8.7/3.5W) with SMTP id LAA07583; Mon, 12 Oct 1998 11:33:16 +0900 (JST) Message-Id: <199810120233.LAA07583@charlie.src.ricoh.co.jp> To: irex@karc.crl.go.jp, sekine@nonki.cs.nyu.edu Cc: sekine@cs.nyu.edu In-Reply-To: Your message of "Fri, 9 Oct 1998 07:24:28 -0400" References: <199810091124.HAA12647@nonki.cs.nyu.edu> X-Mailer: Mew version 1.06 on Emacs 19.28.2, Mule 2.2 Mime-Version: 1.0 Date: Mon, 12 Oct 1998 11:33:15 +0900 From: OGAWA Yasushi Reply-To: irex@karc.crl.go.jp X-Sequence: irex 66 Subject: [irex 66] Re: NACSIS & IREX Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: Text/Plain; charset=iso-2022-jp Content-Length: 1384 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f To: irex@karc.crl.go.jp, sekine@nonki.cs.nyu.edu Cc: sekine@cs.nyu.edu In-Reply-To: Your message of "Fri, 9 Oct 1998 07:24:28 -0400" References: <199810091124.HAA12647@nonki.cs.nyu.edu> X-Mailer: Mew version 1.06 on Emacs 19.28.2, Mule 2.2 Mime-Version: 1.0 Date: Mon, 12 Oct 1998 11:33:15 +0900 From: OGAWA Yasushi Reply-To: irex@karc.crl.go.jp X-Sequence: irex 66 Subject: [irex 66] Re: NACSIS & IREX Sender: owner-irex@karc.crl.go.jp Content-Type: Text/Plain; charset=iso-2022-jp Content-Length: 1384 > 1. フォーマットについて > 是非共通化して欲しいです。 > > IREXの方では、これまで示してきたSGMLのフォーマットと > NACSISが採用したTRECのフォーマットの両方のフォーマットを受け > 付ける事にしました。(最新のIRの定義にはそのようにあります。) > 変換プログラムをIREXで作成し、公開いたします。(実際の試験の > 際には、こちらで変換します。) スコアラも神門さんが紹介されていた > TRECのを使用する予定でいます。同順位は確かに問題ですが、現在の所、 > IREXフォーマットでは必須である順位を重視し、TRECフォーマット > ではSIMの値を重視するという考えでいます。この点から派生する差に > ついては無視できる範囲だと考えています。提出件数は対象データの件数が > 違うので、その辺りの関係でしょうが、IREXの方で1000件まで > もらっておいて300件以降は見ないというのは、簡単に実現できます。 小川@リコーです。 (最近 IREX のメールをきちんと読んでいないので、とんちんかんなフォロー かもしれませんが…) TREC では、tie の文書の扱いを共通化するため、必ずスコアをつけるように なっています。IREX では、実際にはスコアを見ないことがあっても、 SGML のフォーマットにおいて、スコアを付けられるようにしておき、 スコアをつけた場合とつけない場合で評価の上でどんな差があるのかを明示 した方がよいと思います。  1, filed,, Summary-line: 12-Oct to: irex@karc.crl.go.jp #[irex 67] IR scoring (tie) Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id HAA07958; Mon, 12 Oct 1998 07:13:27 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id HAA04790; Mon, 12 Oct 1998 07:13:25 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id UAA16762; Mon, 12 Oct 1998 20:08:01 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id UAA15301; Mon, 12 Oct 1998 20:07:59 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id UAA10213; Mon, 12 Oct 1998 20:02:06 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id UAA10207 for ; Mon, 12 Oct 1998 20:02:05 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id UAA00910 for ; Mon, 12 Oct 1998 20:02:46 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id UAA15296 for ; Mon, 12 Oct 1998 20:07:55 +0900 (JST) Received: from nonki.cs.nyu.edu (NONKI.CS.NYU.EDU [128.122.140.99]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with SMTP id UAA23309 for ; Mon, 12 Oct 1998 20:07:54 +0900 (JST) Received: by nonki.cs.nyu.edu (SMI-8.6/1.20) id HAA12963; Mon, 12 Oct 1998 07:07:52 -0400 Date: Mon, 12 Oct 1998 07:07:52 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810121107.HAA12963@nonki.cs.nyu.edu> To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: OGAWA Yasushi's message of Mon, 12 Oct 1998 11:33:15 +0900 <199810120233.LAA07583@charlie.src.ricoh.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 67 Subject: [irex 67] IR scoring (tie) Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 539 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Mon, 12 Oct 1998 07:07:52 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: OGAWA Yasushi's message of Mon, 12 Oct 1998 11:33:15 +0900 <199810120233.LAA07583@charlie.src.ricoh.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 67 Subject: [irex 67] IR scoring (tie) Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 539 小川さんありがとうございます。 IREXでも各記事の情報の所に、RANKだけではなくて、オプショナルな SCOREというフィールドがあり、その情報を利用する事は 可能です。ただこれまでの経過上RANKを利用するとしていた ので、そちらを重視するとしましたが、反対意見がなければ SCOREの方を利用するという事にしても構いません。 または、RANKを必須にして、SCOREがない場合は、RANKから SCOREを生成し、RANKが存在する場合にはそれを利用するという 方法もあります。 関根  1,, Summary-line: 13-Oct tsuya.sakai@toshiba.co.jp #[irex 68] Re: IR scoring (tie) Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id UAA14272; Mon, 12 Oct 1998 20:58:46 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id UAA16391; Mon, 12 Oct 1998 20:58:44 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id JAA21046; Tue, 13 Oct 1998 09:54:36 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id JAA27548; Tue, 13 Oct 1998 09:54:34 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id JAA13480; Tue, 13 Oct 1998 09:48:41 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id JAA13475 for ; Tue, 13 Oct 1998 09:48:39 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id JAA01185 for ; Tue, 13 Oct 1998 09:49:20 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id JAA27534 for ; Tue, 13 Oct 1998 09:54:30 +0900 (JST) Received: from inet-tsb.toshiba.co.jp (inet-tsb.toshiba.co.jp [202.33.96.40]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id JAA00335 for ; Tue, 13 Oct 1998 09:54:28 +0900 (JST) Received: from tis2.tis.toshiba.co.jp by inet-tsb.toshiba.co.jp (8.8.8/3.3W9-04/12/95) id JAA17222; Tue, 13 Oct 1998 09:54:27 +0900 (JST) Received: from mx.toshiba.co.jp by tis2.tis.toshiba.co.jp (8.8.4+2.7Wbeta4/3.3W9-95082317) id JAA08123; Tue, 13 Oct 1998 09:54:26 +0900 (JST) Received: by toshiba.co.jp (8.7.1+2.6Wbeta4/3.3W9-TOSHIBA-GLOBAL SERVER) id JAA12821; Tue, 13 Oct 1998 09:54:24 +0900 (JST) Message-Id: <199810130054.JAA12821@toshiba.co.jp> To: irex@karc.crl.go.jp In-reply-to: Your message of "Mon, 12 Oct 1998 07:07:52 -0400." <199810121107.HAA12963@nonki.cs.nyu.edu> Date: Tue, 13 Oct 1998 09:54:21 +0900 From: "Tetsuya SAKAI" Reply-To: irex@karc.crl.go.jp X-Sequence: irex 68 Subject: [irex 68] Re: IR scoring (tie) Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 1561 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f To: irex@karc.crl.go.jp In-reply-to: Your message of "Mon, 12 Oct 1998 07:07:52 -0400." <199810121107.HAA12963@nonki.cs.nyu.edu> Date: Tue, 13 Oct 1998 09:54:21 +0900 From: "Tetsuya SAKAI" Reply-To: irex@karc.crl.go.jp X-Sequence: irex 68 Subject: [irex 68] Re: IR scoring (tie) Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 1561 東芝の酒井です。 >> 小川さんありがとうございます。 >> IREXでも各記事の情報の所に、RANKだけではなくて、オプショナルな >> SCOREというフィールドがあり、その情報を利用する事は >> 可能です。ただこれまでの経過上RANKを利用するとしていた >> ので、そちらを重視するとしましたが、反対意見がなければ >> SCOREの方を利用するという事にしても構いません。 >> または、RANKを必須にして、SCOREがない場合は、RANKから >> SCOREを生成し、RANKが存在する場合にはそれを利用するという >> 方法もあります。 >> 関根 私が前回のIREXのmeetingでscoreフィールドを設けたほうがよいと 言ったのは、基本的にはrankで評価するが、後に (例えばestimated search lengthなどを用いて)scoreで評価をやりたくなったら やれるように情報はとっておこうという意味でした。 TRECもscoreフィールドは評価 (11pt average precision,noninterpolated average precision and precision at dcv=n)には使っていませんよね。 とにかく、NACSIS同様IREXも今回はTREC方式をそのまま 採用すればよいのではないですか。 # TREC方式がよい方法だと言っているわけではありません ◆◇ 酒井 哲也 tetsuya.sakai@toshiba.co.jp ◇◆ ◇◆ (株)東芝 研究開発センター 情報・通信システム研究所 ◆◇ ◆◇ ヒューマン・インタフェース技術センター TEL:044-549-2240 ◇◆ ◇◆ http://club.pep.ne.jp/~sakai3 FAX:044-520-1308 ◆◇  1, answered,, Summary-line: 13-Oct noguchi@trl.mei.co.jp #[irex 69] Re: NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id DAA17349; Tue, 13 Oct 1998 03:10:50 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id DAA19282; Tue, 13 Oct 1998 03:10:48 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id QAA25888; Tue, 13 Oct 1998 16:05:53 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id QAA11288; Tue, 13 Oct 1998 16:05:51 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id PAA19112; Tue, 13 Oct 1998 15:59:57 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id PAA19107 for ; Tue, 13 Oct 1998 15:59:56 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id QAA01528 for ; Tue, 13 Oct 1998 16:00:36 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id QAA11278 for ; Tue, 13 Oct 1998 16:05:46 +0900 (JST) Received: from bulls.mei.co.jp (bulls.mei.co.jp [202.224.189.102]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id QAA06834 for ; Tue, 13 Oct 1998 16:05:45 +0900 (JST) Received: by bulls.mei.co.jp (8.9.1/3.7W) with ESMTP id QAA20713; Tue, 13 Oct 1998 16:05:06 +0900 (JST) Received: by dodgers.mei.co.jp (8.9.1/3.7W) with ESMTP id QAA25531; Tue, 13 Oct 1998 16:05:04 +0900 (JST) Received: from tck01-ms.trl.mei.co.jp (BADBAD.trl.mei.co.jp [133.185.148.169]) by harold.trl.mei.co.jp (post.office MTA v2.0 0813 ID# 111-30962U510) with ESMTP id AAA224; Tue, 13 Oct 1998 16:05:16 +0900 Received: from kenken.trl.mei.co.jp (kenken [133.185.148.159]) by tck01-ms.trl.mei.co.jp (8.7.5+2.6Wbeta6/sendmail.cf:TOBy-hosts:971204) with SMTP id QAA22865; Tue, 13 Oct 1998 16:04:37 +0900 (JST) Received: by kenken.trl.mei.co.jp (5.x/5.5:4.5:TIS-gc:941031) id AA00605; Tue, 13 Oct 1998 16:04:21 +0900 Message-Id: <9810130704.AA00605@kenken.trl.mei.co.jp> To: irex@karc.crl.go.jp Cc: sekine@cs.nyu.edu In-Reply-To: Your message of "Sun, 11 Oct 1998 14:47:21 -0400." <199810111847.OAA02377@noreen.cs.nyu.edu> Date: Tue, 13 Oct 1998 16:04:21 +0900 From: NOGUCHI Naohiko Reply-To: irex@karc.crl.go.jp X-Sequence: irex 69 Subject: [irex 69] Re: NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 11521 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f To: irex@karc.crl.go.jp Cc: sekine@cs.nyu.edu In-Reply-To: Your message of "Sun, 11 Oct 1998 14:47:21 -0400." <199810111847.OAA02377@noreen.cs.nyu.edu> Date: Tue, 13 Oct 1998 16:04:21 +0900 From: NOGUCHI Naohiko Reply-To: irex@karc.crl.go.jp X-Sequence: irex 69 Subject: [irex 69] Re: NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 11521 IREXメイリングリストの皆様(特にNE定義の責任者の方々): 関根さん wrote: >>NE定義の修正の期限が1週間に迫っております。 >>問題があると思われる方は早目に申し出てください。 野口@松下電器です。 現状のNE定義について、こちらの社内で細部を検討しました。 いくつかの疑問/質問、および提案がありますので、述べさせていただきます。 少々長くなりますがご容赦下さい。以下は前置きです。 ・初期段階での議論に参加していなかったので、議論のむし返しになる点もあ るかも知れません。 ・また、今回の NE課題の実行に関してはさほど問題にならない論点もあるか も知れません。 このような場合は、ご指摘下さい。 また、 [質問] は、できればどなたか(定義を作られた方)に回答していただきたい、 というものです。 [疑問] は、回答は求めませんが、素朴な疑問、というものです。 [提案] は、こうしたらどうでしょうか、という提案です。 よろしくお願いします。 -----------------------( ここから )-------------------------- (1)人名について [提案] 「3.1.2.A 役職名、敬称」には、「役職名、敬称などは人名に含めない」とあ りますが、以下のような場合は特例とした方がよいと思います。 ・肩書きと一体化した名称で定着している場合は、肩書きまで人名に含める 例)清少納言 紫式部 虞美人 ・肩書きのみで、特定の個人を指す場合は、人名とする (肩書きがその当人を指し示す固有の名称として社会通念上定まっている場合) 例)天皇 (この例はよろしくないかも) 明治天皇 (この例はよろしくないかも) ダライラマ 始皇帝 ローマ法皇 (ただし、 ローマ法皇ヨハネ・パウロ2世) ・次のような場合はこれでいいでしょうか? 例)第十四代木村庄之助 ? 囲碁第22期名人 (タグなし) [質問] ・物語の登場人物のような空想上の人物もタグづけする、という方針でよいで しょうか。 例)ゼウス アリス (注: 不思議の国のアリスの登場人物としてのアリス) ・擬人化された空想上/物語の中のキャラクターなどは、人間でなくとも タグで抽出するということでよいでしょうか? (人間であるかどうかの判断が難しい例も多いと思いますが) 例)仮面ライダー ウルトラマン ウルトラマンティガ ? ウルトラマンティガミッキーマウス 忠犬ハチ公 ?? ・新聞記事の場合に多いと思われる「仮名」も、次のようにタグづけする、と いうことでよいでしょうか。それとも、タグなしとすべきでしょうか? 例)仮名:田中太郎氏 仮名:氏 少年は... (2)部分表現について [疑問] 「3.1.A 部分表現」に、「名詞連続や接辞が付いたものでも、その一部に固有 名詞的表現を含む場合はそれを抽出する」とありますが、名詞連続であっても、 全体として普通名詞的に用いることが多い、あるいは全体で普通名詞化してい るような場合はどうするのでしょうか? 例)フランス人形 ? フランス料理 ? パリジェンヌ ? 江戸っ子 ? 女、男 ? 瀬戸物 ? きび ? 五右衛門風呂 ? 川崎病 ? ハンセン氏病 ? 字 ? 語 ? アメリカンコーヒー ? また、以下のような慣用表現の一部は抽出するのでしょうか? 例)コロンブスの卵 ? コペルニクス的転回 ? 上記の例では、「フランス料理」くらいまでは抽出してもいいような気がしま すが、それより下は抽出してもあまり意味があるとは思えません。 これらについても抽出すべきかどうかの指針を示すべきであると思います。 (完全に定義することは不可能だと思いますが、一応の指針は示すべきである、 という意味です) そこで、以下の2案のどちらかにすることを提案します。 [提案1] 全体として普通名詞化している表現、慣用表現となっているものの 部分表現は抽出しない → 「普通名詞化している」「慣用表現となっている」という判断は 当然揺れると思いますが、上例の多くは救えるのではないかと思 います。ちなみに、上例に対する我々の判断は、 フランス人形 フランス料理 パリジェンヌ (タグなし) 江戸っ子 (タグなし) 京女、東男 (タグなし) 瀬戸物 (タグなし) 唐きび (タグなし) 五右衛門風呂 (タグなし) 川崎病 (タグなし) ハンセン氏病 (タグなし) 漢字 (タグなし) 英語 (タグなし) アメリカンコーヒー (タグなし) → また、この定義を採用する場合、現在の NE 定義に出ている以下 のような例は見直す必要があると思います。 文相 農水大臣 etc. → ただし、普通名詞化しているものの一部を抽出したとしても評価 には影響しない、とする(つまり、これらの部分表現は OPTIONAL として扱う)という選択もあるかと思います。 [提案2] とにかくすべて抽出する → 案1ではどうしても「普通名詞化している」という判断が揺れる ので、思いきって、全てを抽出する、という案です。 → この場合、上記の例のような抽出は全て行うことになりますし、 また、一貫性を保つためには、以下のような抽出も必要でしょう。 フレンチレストラン ウィンナーコーヒー アメメリケン粉 (3)固有物名について [疑問] 3.1.4.A 「商品に関する一般的な名前」「商品の一般的な名称をあらわすもの」 という定義が今一つよくわからなくなっています。(以前に議論があったかも 知れませんが) 確かに、「魚沼産コシヒカリ」は最近は一つの商品名として定着してきている ので、それで固有名としてもいいのかもしれませんが、 「栃木産女峰」?? といったケースはどうなるのか、よくわかりません。(これは、それほど定着 していない、栃木でとれた女峰、というぐらいの意味合いが強いと感じていま すが) これを固有物名として認めるとすると、これと 「台湾産バナナ」 との違いは何か? また、「新潟産コシヒカリ」は語義的には「魚沼産コシヒカリ」を含むと思い ますが、これはどうなるのか。 また、「物のクラス」についてもよくわかりません。 何故、 森永アイスクリーム カローラ なのでしょうか。これらはどちらも商品群(クラス?)を指し示していると思 いますが、違いは前者が一見名詞連続に見えることくらいなように思えます。 「カローラ」は商標だが「森永アイスクリーム」は商標でないというような差 があるかも知れませんが、では、「森永アイスクリーム」が商標登録されてい た場合はどうなるのでしょうか? 同様に、 「パナソニックカーナビ」 「ナショナル冷蔵庫」 などはある決められた範囲の商品群を指し示し、どちらも商標である場合、こ れらはどのように扱えばいいのでしょうか? やはり、これらには、「固有名として定着している度合い」というような判断 基準が必要なのでしょうか。 [提案] 3.1.4.A 「商品」は、3.1.4.B の「抽象物」とまとめて、以下のような定義も 可能であるかと思います。 ----------------------- 3.1.4.A 商品名・抽象物名 著作権/商標等、知的所有権が主張可能であるような作品、出版物、成果物 などの名前、商品名は、とする。 あるいは、その知的所有権を主張する人、団体が特定できる場合。ここでの 知的所有権が主張可能とは、第三者が許可なくその名称を使用した場合、元々 の意味を故意に変更して使用した場合に、その使用を制限できる道義的、法律 的権利を持つことをいう。 たとえば、 おしん パナソニックウッディ 外交白書 アシモフロボット3原則 コシヒカリ ----------------------- [疑問] それから、3.1.4.A の例にある「敦賀原発1号機」は商品なのでしょうか?む しろ、3.1.4 の別項目として「建造物」というような項目を立てた方がいいよ うに思いますが。ただ、「文脈により LOCATION、ORGANIZATION と判断できる 場合は、ARTIFACT としない」という但書きが必要になるかと思いますが。 例)成田空港の管理業務の一貫として 成田空港に到着した 成田空港が竣工した (4)国名について [提案] 国名については、判断の曖昧性をなくすために、組織と解釈できる場合でも無 理矢理 LOCATION に倒すような定義となっています。(3.1.3.B の定義) 先日の議論で、「文脈により判断する」という場合が広がったように思います ので、この場合も、「文脈により判断する」ということでいいのではないでしょ うか。(その方が抽出する意味があると思います) 例)アメリカの圧力 (5)その他 [質問] ・PKOは行為(活動)であるので、タグは付けないと理解していますが、その 個別の活動については以下のような揺れがあるようです。例えば、試験的な タグづけデータでは、 ONUMOZ(国連モザンピーク活動) タグなし UNAVEM2(第2次国連アンゴラ監視団) となっています。これらは、日本語訳は確かに「活動」「監視団」の違いは ありますが、活動にそれほど差があるとは思えません。「タグなし」という ことで統一した方がいいように思えます。 ・金額表現について、次のような記事の場合、 「...は3500バーツ、日本円にして約.... 」 以下のようなタグづけでいいのでしょうか? 「...は3500バーツ日本円に して約.... 」 ・学問的な理論は でしょうか? 例)特殊相対性理論 ホーキング宇宙論 -----------------------( ここまで )-------------------------- +------------------------------------------------------------------+ | 野口 直彦 | | 松下電器産業株式会社 TEL. 03-5460-2744 | | マルチメディアシステム研究所 FAX. 03-5460-2736 | | 東京都品川区東品川 4-5-15 EMAIL noguchi@trl.mei.co.jp | +------------------------------------------------------------------+  1, filed,, Summary-line: 13-Oct eriguchi@lit.rd.nttdata.c #[irex 69] Re: NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id HAA17952; Tue, 13 Oct 1998 07:41:27 -0400 Received: from ms.nttdata.co.jp by cs.nyu.edu (SMI-8.6/1.20) id HAA20809; Tue, 13 Oct 1998 07:41:25 -0400 Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id UAA11914; Tue, 13 Oct 1998 20:40:23 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id UAA01975; Tue, 13 Oct 1998 20:40:22 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id UAA07900; Tue, 13 Oct 1998 20:40:21 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (eriguchi@pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8/3.6W-lit-server-05/22/98) with SMTP id UAA16311; Tue, 13 Oct 1998 20:40:20 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA07523; Tue, 13 Oct 98 20:36:59 JST Date: Tue, 13 Oct 98 20:36:59 JST From: Yoshio Eriguchi Message-Id: <9810131136.AA07523@pittsburgh.lit.rd.nttdata.co.jp> To: sekine@cs.nyu.edu Cc: fukumoto@kansai.oki.co.jp, wakao@shibuya.tao.or.jp, ochi@flab.fujitsu.co.jp, nisino@flab.fujitsu.co.jp In-Reply-To: NOGUCHI Naohiko's message of Tue, 13 Oct 1998 16:04:21 +0900 <9810130704.AA00605@kenken.trl.mei.co.jp> Subject: [irex 69] Re: NE definition Content-Type: text Content-Length: 779 *** EOOH *** Return-Path: Date: Tue, 13 Oct 98 20:36:59 JST From: Yoshio Eriguchi To: sekine@cs.nyu.edu Cc: fukumoto@kansai.oki.co.jp, wakao@shibuya.tao.or.jp, ochi@flab.fujitsu.co.jp, nisino@flab.fujitsu.co.jp In-Reply-To: NOGUCHI Naohiko's message of Tue, 13 Oct 1998 16:04:21 +0900 <9810130704.AA00605@kenken.trl.mei.co.jp> Subject: [irex 69] Re: NE definition Content-Type: text Content-Length: 779 江里口です。 御無沙汰しております。 >IREXメイリングリストの皆様(特にNE定義の責任者の方々): とりあえず、メイルは見て考え中ということをお伝えします。 内容がヘビーなので、明日までに回答したいと思います。 あと、どういう形でメイルを返したほうが良いでしょうか? 1. とりあえず全員に私なりの意見を述べ、異論、反論がある方の反応をみて しかるべき時にNEの実行委員としての回答を周知する。 2. NE定義の責任者ないでメイルで議論し、最終決断を周知する。 とりあえず、中身については、明日、私なりの回答案を作りたいと 思います。質問ないようによっては、明日までの回答が難しいものが ありそうですが努力はします。 #結構、判定対象外という伝家の宝刀を抜きたいものが多いのですが。 -- Eriguchi  1,, Summary-line: 13-Oct to: irex@karc.crl.go.jp #[irex 70] IR output information Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id XAA26274; Tue, 13 Oct 1998 23:39:12 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id XAA04260; Tue, 13 Oct 1998 23:39:09 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id MAA04756; Wed, 14 Oct 1998 12:33:34 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id MAA07402; Wed, 14 Oct 1998 12:33:33 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id MAA28495; Wed, 14 Oct 1998 12:27:39 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id MAA28490 for ; Wed, 14 Oct 1998 12:27:36 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id MAA02117 for ; Wed, 14 Oct 1998 12:28:16 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id MAA07393 for ; Wed, 14 Oct 1998 12:33:27 +0900 (JST) Received: from nonki.cs.nyu.edu (NONKI.CS.NYU.EDU [128.122.140.99]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with SMTP id MAA20478 for ; Wed, 14 Oct 1998 12:33:13 +0900 (JST) Received: by nonki.cs.nyu.edu (SMI-8.6/1.20) id XAA13385; Tue, 13 Oct 1998 23:33:06 -0400 Date: Tue, 13 Oct 1998 23:33:06 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810140333.XAA13385@nonki.cs.nyu.edu> To: irex@karc.crl.go.jp Cc: sekine@cs.nyu.edu Reply-To: irex@karc.crl.go.jp X-Sequence: irex 70 Subject: [irex 70] IR output information Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 1327 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Tue, 13 Oct 1998 23:33:06 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) To: irex@karc.crl.go.jp Cc: sekine@cs.nyu.edu Reply-To: irex@karc.crl.go.jp X-Sequence: irex 70 Subject: [irex 70] IR output information Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 1327 Tipster Workshopに参加中の関根です。 TREC関係の方々とは個別に話しをし、IREXへの興味をいただき、 協力の言葉をいただきました。私の発表は明日です。 Information to be used in the scoring program. I believe TREC eval program use SIM information, although IREX proposed to use RANK information. It has not yet be decided what to do in IREX. However, it is a neat idea to keep as much information as possible in your submitting data. まずは、酒井さんのIRに関するコメントへの回答です。 今回はスコアリングには使用しないかもしれない情報でもできるだけ 保持しておこうという考え方には100%賛同します。RANK,SCOREだけではなく CONFIDENCEやその他システム固有のデータでも情報として残していただければ 幸いです。その部分は変換プログラムで単なる文字列として扱い、 スコアリングには影響しないようにするという計画でした。 ただ、私ももう一度確認しますが、TRECのevalプログラムはSCOREを 基準としており、RANKの情報は無視されている筈です。したがって、 IREXでRANKを重視するというのとは、ちょっと食い違っています。 これが同順位の問題を引き起す原因になっています。 したがて、前のメイルで私が提案した形が一番妥当だと思っています。 (ただし、変換プログラムを書き直さないといけないという仕事が発生しますが) 関根  1, filed,, Summary-line: 13-Oct to: irex@karc.crl.go.jp #[irex 71] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id XAA26293; Tue, 13 Oct 1998 23:42:48 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id XAA04297; Tue, 13 Oct 1998 23:42:47 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id MAA04788; Wed, 14 Oct 1998 12:34:34 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id MAA07455; Wed, 14 Oct 1998 12:34:32 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id MAA28516; Wed, 14 Oct 1998 12:28:39 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id MAA28511 for ; Wed, 14 Oct 1998 12:28:38 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id MAA02120 for ; Wed, 14 Oct 1998 12:29:18 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id MAA07450 for ; Wed, 14 Oct 1998 12:34:28 +0900 (JST) Received: from nonki.cs.nyu.edu (NONKI.CS.NYU.EDU [128.122.140.99]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with SMTP id MAA20514 for ; Wed, 14 Oct 1998 12:34:22 +0900 (JST) Received: by nonki.cs.nyu.edu (SMI-8.6/1.20) id XAA13387; Tue, 13 Oct 1998 23:34:19 -0400 Date: Tue, 13 Oct 1998 23:34:19 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810140334.XAA13387@nonki.cs.nyu.edu> To: irex@karc.crl.go.jp Cc: sekine@cs.nyu.edu Reply-To: irex@karc.crl.go.jp X-Sequence: irex 71 Subject: [irex 71] NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 13887 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Tue, 13 Oct 1998 23:34:19 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) To: irex@karc.crl.go.jp Cc: sekine@cs.nyu.edu Reply-To: irex@karc.crl.go.jp X-Sequence: irex 71 Subject: [irex 71] NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 13887 Reply to Mr.Noguchi's question's about Ne definition. 野口さん、NEに関するコメントありがとうございます。 まずは、基本的にNE定義の責任者というものは存在しないと考えてください。 以前に出したNEの定義は叩き台であって、定義は皆で作るというスタンスです。 実際、先日のミーティングでも皆で議論して作りあげていきましたよね。 したがって、このようなコメント(特に野口さんの「提案」をしていただいている 姿勢)は大歓迎です。 私の「意見」を書きます。 (Tipsterに参加している沖電気の桝井さんと一緒に考えています) >(1)人名について >[提案] >「3.1.2.A 役職名、敬称」には、「役職名、敬称などは人名に含めない」とあ >りますが、以下のような場合は特例とした方がよいと思います。 > > ・肩書きと一体化した名称で定着している場合は、肩書きまで人名に含める > 例)清少納言 > 紫式部 > 虞美人 「慣用表現」「定着した表現」という基準は必ず曖昧性を伴なうのですが、 確かに気持は分ります。例えば、一般的に辞書に載っている場合には 慣用表現とするというような定義の仕方はありますね。「一般的」というのも 難しいですが、4つの辞書のうち3つに載っていればというような感じで 定義しする事は可能かもしれません。。。(江里口さん頑張りましょうね! X-) うーーん、でも桝井さんの持っている電子化辞書には、清少納言も紫式部も 載っていないようです。。4つのうち2つか1つの辞書にしか載っていない場合には 判定対象外にしましょうか。 > ・肩書きのみで、特定の個人を指す場合は、人名とする > (肩書きがその当人を指し示す固有の名称として社会通念上定まっている場合) > > 例)天皇 (この例はよろしくないかも) > 明治天皇 (この例はよろしくないかも) > ダライラマ > 始皇帝 > ローマ法皇 > (ただし、 > ローマ法皇ヨハネ・パウロ2世) この場合には、「委員長」同様、それだけでは固有の対象を特定できないため タグしないとしたいです。ただし、「明治天皇」「ダライラマ14世」は 特定しているのでタグを付けたらいいかと思います。 > ・次のような場合はこれでいいでしょうか? > > 例)第十四代木村庄之助 ? > 囲碁第22期名人 (タグなし) んーーー。。。非常に難しいですね。 「ダライラマ14世」からすると「第十四代木村庄之助」 「囲碁第22期名人」にしたい所ですが、特に後者は 「沖電気関西研究所長」がなぜ人名ではないのかという事になってきますね。 すべて人名ではなくしてしまったらどうかという気持になってきましたが 皆さんどう思いますか? (この課題で桝井さんと30分以上悩みました。。) >[質問] >・物語の登場人物のような空想上の人物もタグづけする、という方針でよいで > しょうか。 これは、どこかで誰かと入れるべきだという議論をしたと思います。 今もその気持でいます。 >・擬人化された空想上/物語の中のキャラクターなどは、人間でなくとも > タグで抽出するということでよいでしょうか? > (人間であるかどうかの判断が難しい例も多いと思いますが) > > 例)仮面ライダー > ウルトラマン > ウルトラマンティガ ? > ウルトラマンティガ ? > ミッキーマウス > 忠犬ハチ公 ?? これは私は反対です。すでに「人間でない」という言い方ができている訳で、 そのような判断ができる以上「人名」のカテゴリには入れない方がいいと思います。 「忠犬ハチ公」「みなしごハッチ」「ロボコン」なんかは人名には入れたくない ですよね? 確かに人間であるかどうか判断が難しいような例もあるかもしれません。 桝井さんと一生懸命考えました。「超人ハルク」「サイボーグ009」 なんかは適当な例かもしれません。この場合には判定対象外としたら いいと思います。 >・新聞記事の場合に多いと思われる「仮名」も、次のようにタグづけする、と > いうことでよいでしょうか。それとも、タグなしとすべきでしょうか? > > 例)仮名:田中太郎氏 > 仮名:氏 > 少年は... この話はミーティングで出たと思いますが、確かに定義には書いてありませんね。 どのような結論でしたっけ? (結論がなかったのでしたっけ?) 今の私の考えは、指示的な普通名詞と同様である。 また、表記上だけでは特定する事ができないため、タグなしだと思います。 >(2)部分表現について > >[疑問] > >「3.1.A 部分表現」に、「名詞連続や接辞が付いたものでも、その一部に固有 >名詞的表現を含む場合はそれを抽出する」とありますが、名詞連続であっても、 >全体として普通名詞的に用いることが多い、あるいは全体で普通名詞化してい >るような場合はどうするのでしょうか? > > 例)フランス人形 ? > フランス料理 ? > パリジェンヌ ? > 江戸っ子 ? > 女、男 ? > 瀬戸物 ? > きび ? > 五右衛門風呂 ? > 川崎病 ? > ハンセン氏病 ? > 字 ? > 語 ? > アメリカンコーヒー ? > >また、以下のような慣用表現の一部は抽出するのでしょうか? > > 例)コロンブスの卵 ? > コペルニクス的転回 ? > >上記の例では、「フランス料理」くらいまでは抽出してもいいような気がしま >すが、それより下は抽出してもあまり意味があるとは思えません。 > >これらについても抽出すべきかどうかの指針を示すべきであると思います。 >(完全に定義することは不可能だと思いますが、一応の指針は示すべきである、 > という意味です) > >そこで、以下の2案のどちらかにすることを提案します。 > >[提案1] 全体として普通名詞化している表現、慣用表現となっているものの > 部分表現は抽出しない > >[提案2] とにかくすべて抽出する > > → 案1ではどうしても「普通名詞化している」という判断が揺れる > ので、思いきって、全てを抽出する、という案です。 > > → この場合、上記の例のような抽出は全て行うことになりますし、 > また、一貫性を保つためには、以下のような抽出も必要でしょう。 > > フレンチレストラン > ウィンナーコーヒー > アメ車 > メリケン粉 3.1.Aに「来」という例がある通り、これは野口さんの 言われる提案2のように定義したと認識しています。 「フレンチ」「ウィナー」「メリケン」は形容詞であり取りたくない気が しますが、では「日本髪」の「日本」はどうなんだと言われると困ります。 表記で判断しましょうか?(できるでしょうか?) >(3)固有物名について > >[疑問] > >3.1.4.A 「商品に関する一般的な名前」「商品の一般的な名称をあらわすもの」 >という定義が今一つよくわからなくなっています。(以前に議論があったかも >知れませんが) > >確かに、「魚沼産コシヒカリ」は最近は一つの商品名として定着してきている >ので、それで固有名としてもいいのかもしれませんが、 > > 「栃木産女峰」?? > >といったケースはどうなるのか、よくわかりません。(これは、それほど定着 >していない、栃木でとれた女峰、というぐらいの意味合いが強いと感じていま >すが) > >これを固有物名として認めるとすると、これと > > 「台湾産バナナ」 > >との違いは何か? > >また、「新潟産コシヒカリ」は語義的には「魚沼産コシヒカリ」を含むと思い >ますが、これはどうなるのか。 これは、まったく同じ議論を福本さん、江里口さんとは延々した覚えがあります。 前と同じく「慣用表現は辞書で判断する」とすると「魚沼産コシヒカリ」は 入りませんが、我々の常識から「判定対象外」とするのが適当でしょうか? >また、「物のクラス」についてもよくわかりません。 > >何故、 > > 森永アイスクリーム > カローラ > >なのでしょうか。これらはどちらも商品群(クラス?)を指し示していると思 >いますが、違いは前者が一見名詞連続に見えることくらいなように思えます。 > >「カローラ」は商標だが「森永アイスクリーム」は商標でないというような差 >があるかも知れませんが、では、「森永アイスクリーム」が商標登録されてい >た場合はどうなるのでしょうか? 後者の理由です。 >同様に、 > > 「パナソニックカーナビ」 > 「ナショナル冷蔵庫」 > >などはある決められた範囲の商品群を指し示し、どちらも商標である場合、こ >れらはどのように扱えばいいのでしょうか? 商標なのですか? 一般的に特定の機種なりを判断できないので商品名にしないという判断だと思います。 >やはり、これらには、「固有名として定着している度合い」というような判断 >基準が必要なのでしょうか。 そうですね。 この辺はある程度、判定者の知識を判定基準とするという事になってしまいますね。 >[提案] > >3.1.4.A 「商品」は、3.1.4.B の「抽象物」とまとめて、以下のような定義も >可能であるかと思います。 > >----------------------- >3.1.4.A 商品名・抽象物名 > > 著作権/商標等、知的所有権が主張可能であるような作品、出版物、成果物 >などの名前、商品名は、とする。 > あるいは、その知的所有権を主張する人、団体が特定できる場合。ここでの >知的所有権が主張可能とは、第三者が許可なくその名称を使用した場合、元々 >の意味を故意に変更して使用した場合に、その使用を制限できる道義的、法律 >的権利を持つことをいう。 なかなか科学的な定義をありがとうございます。 :-) ただ、(桝井さんによると)著作権は50年で切れるため夏目漱石の著作権は 切れているという話ですが、「坊っちゃん」は作品名にしたいですよね。 それから、「彼はシャープのウオークマンを買った」という文章の (論理的に矛盾がありますが、こういう文章がある事は想像できますよね) 「ウオークマン」は商標になっているとしても、「テレビ」と同様の扱いですよね。 >[疑問] > >それから、3.1.4.A の例にある「敦賀原発1号機」は商品なのでしょうか?む >しろ、3.1.4 の別項目として「建造物」というような項目を立てた方がいいよ >うに思いますが。ただ、「文脈により LOCATION、ORGANIZATION と判断できる >場合は、ARTIFACT としない」という但書きが必要になるかと思いますが。 > > 例)成田空港の管理業務の一貫として > 成田空港に到着した > 成田空港が竣工した これは3.1にあるようにコンテクストにより判断するという事になると思います。 「敦賀原発1号機」の例はコンテストを書いてないので曖昧ですが、 そのような意図があります。ただし、別項目を立てて説明をした方がいいというのは 同意します。 >(4)国名について > >[提案] > >国名については、判断の曖昧性をなくすために、組織と解釈できる場合でも無 >理矢理 LOCATION に倒すような定義となっています。(3.1.3.B の定義) > >先日の議論で、「文脈により判断する」という場合が広がったように思います >ので、この場合も、「文脈により判断する」ということでいいのではないでしょ >うか。(その方が抽出する意味があると思います) > > 例)アメリカの圧力 私の記憶では、先日議論をして、結局この場合には文脈ではなく、曖昧性をなくす ためにLOCATIONとしようという形になったと覚えています。 >(5)その他 > >[質問] > >・PKOは行為(活動)であるので、タグは付けないと理解していますが、その > 個別の活動については以下のような揺れがあるようです。例えば、試験的な > タグづけデータでは、 > > ONUMOZ(国連モザンピーク活動) タグなし > UNAVEM2(第2次国連アンゴラ監視団) > > となっています。これらは、日本語訳は確かに「活動」「監視団」の違いは > ありますが、活動にそれほど差があるとは思えません。「タグなし」という > ことで統一した方がいいように思えます。 たしか、これは英語の方も調べて同じように違っていたので、上記のような 結論をしたのだと覚えています。もう一度確かめてみます。 実際に活動を意味しているのか組織を意味しているのか違いがあるのかも しれません。可能なかぎり調べてみます。UNのホームページかなにか あるのでしょうか? >・金額表現について、次のような記事の場合、 > > 「...は3500バーツ、日本円にして約.... 」 > > 以下のようなタグづけでいいのでしょうか? > > 「...は3500バーツ日本円に > して約.... 」 はい、これでいいと思います。 >・学問的な理論は でしょうか? > > 例)特殊相対性理論 > ホーキング宇宙論 はい、いいと思います。 理論、法則、学説、等、研究者の作る抽象物も固有物名としませんか。 # いかなるコメント、議論も歓迎します。 関根  1, filed, answered,, Summary-line: 14-Oct takemoto@hml.cl.nec.co.jp #[irex 72] NE-definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id DAA27310; Wed, 14 Oct 1998 03:34:23 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id DAA06186; Wed, 14 Oct 1998 03:34:21 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id QAA07320; Wed, 14 Oct 1998 16:27:48 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id QAA15060; Wed, 14 Oct 1998 16:27:47 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id QAA01750; Wed, 14 Oct 1998 16:21:54 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id QAA01745 for ; Wed, 14 Oct 1998 16:21:52 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id QAA02319 for ; Wed, 14 Oct 1998 16:22:31 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id QAA15055 for ; Wed, 14 Oct 1998 16:27:42 +0900 (JST) Received: from research.gate.nec.co.jp (research.gate.nec.co.jp [202.32.8.49]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id QAA24287 for ; Wed, 14 Oct 1998 16:27:40 +0900 (JST) Received: from ikoma.hml.cl.nec.co.jp (ikoma.hml.cl.nec.co.jp [10.56.192.1]) by research.gate.nec.co.jp (8.8.8+2.7Wbeta7/971104) with ESMTP id QAA11712 for ; Wed, 14 Oct 1998 16:27:39 +0900 (JST) Received: from wakakusa.hml.cl.nec.co.jp by ikoma.hml.cl.nec.co.jp (8.8.8+3.0Wbeta11/HML-980508) with ESMTP id QAA25580; Wed, 14 Oct 1998 16:27:38 +0900 (JST) Received: from takemoto.hml.cl.nec.co.jp by wakakusa.hml.cl.nec.co.jp (8.8.8+3.0Wbeta11/HML-980413) with SMTP id QAA10759; Wed, 14 Oct 1998 16:27:38 +0900 (JST) Message-Id: <199810140727.QAA10759@wakakusa.hml.cl.nec.co.jp> From: takemoto@hml.cl.nec.co.jp (Yoshikazu Takemoto) To: irex@karc.crl.go.jp Date: Wed, 14 Oct 1998 16:25:00 +0900 Mime-Version: 1.0 X-Mailer: VisualMail Version 1.0 Reply-To: irex@karc.crl.go.jp X-Sequence: irex 72 Subject: [irex 72] NE-definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text/plain; charset=ISO-2022-JP Content-Length: 2140 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f From: takemoto@hml.cl.nec.co.jp (Yoshikazu Takemoto) To: irex@karc.crl.go.jp Date: Wed, 14 Oct 1998 16:25:00 +0900 Mime-Version: 1.0 X-Mailer: VisualMail Version 1.0 Reply-To: irex@karc.crl.go.jp X-Sequence: irex 72 Subject: [irex 72] NE-definition Sender: owner-irex@karc.crl.go.jp Content-Type: text/plain; charset=ISO-2022-JP Content-Length: 2140 NECの竹元と申します。 NEの定義に関して質問をさせていただきます。 いずれも非常に細かい話で恐縮ですが、以下の4点です。 ------ 【質問1】 規準3.1.Cに関してですが、連続固有表現内の「・」はどのように扱う のでしょうか?例えば、以下では(a)(b)いずれが正解でしょうか? (a) 日本銀行福岡支店 (b) 日本銀行・福岡支店 ★当方の見解: 「・」を「の」的に扱う(規準3.1.B参照)と(a)ですが、 むしろ記号のような扱いなので(b)でいいと考えます。 【質問2】 規準3.1.3.Cの地名に関する概略的表現について、「北部」「中部」 「南」などの表現も概略的表現とみなしてタグに含めないのでしょうか? 例えば、「九州北部」「南九州」「ロシア南部」「沖縄島南」などは、 「九州北部」「南九州」 「ロシア南部」「沖縄島南」 という理解でよろしいでしょうか? ★当方の見解: タグに含めてもよいような気もしますが、一切含めないとした方が規準とし ては明確になると考えます。 【質問3】 これは、質問というより確認ですが、規準3.1.3.Aから 「米国防省」 →「国防省」 という解釈でよろしいでしょうか? ★当方の見解: 当方が以前参加したMET1では「米国防省」 とまとめるのが正解だったので確認したかったまでです。 今回のIREXの規準の方が明確でよいと思います。 【質問4】 油田の名称は地名か?例えば「北海油田」「チュメニ油田」など。 ★当方の見解: 「北海油田」「チュメニ油田」 のように、地名にするという考えです。 ------ 以上、よろしくお願いいたします。 ---    NEC ヒューマンメディア研究所    竹元 義美 takemoto@hml.cl.nec.co.jp    Tel: 0743-72-3672 Fax:0743-72-3549  1, answered,, Summary-line: 14-Oct noguchi@trl.mei.co.jp #[irex 73] Re: NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id FAA27594; Wed, 14 Oct 1998 05:42:20 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id FAA07008; Wed, 14 Oct 1998 05:42:19 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id SAA08843; Wed, 14 Oct 1998 18:37:25 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id SAA19882; Wed, 14 Oct 1998 18:37:23 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id SAA03322; Wed, 14 Oct 1998 18:31:30 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id SAA03317 for ; Wed, 14 Oct 1998 18:31:29 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id SAA02400 for ; Wed, 14 Oct 1998 18:32:09 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id SAA19877 for ; Wed, 14 Oct 1998 18:37:20 +0900 (JST) Received: from bulls.mei.co.jp (bulls.mei.co.jp [202.224.189.102]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id SAA26533 for ; Wed, 14 Oct 1998 18:37:19 +0900 (JST) Received: by bulls.mei.co.jp (8.9.1/3.7W) with ESMTP id SAA03158 for ; Wed, 14 Oct 1998 18:36:43 +0900 (JST) Received: by dodgers.mei.co.jp (8.9.1/3.7W) with ESMTP id SAA12130 for ; Wed, 14 Oct 1998 18:36:42 +0900 (JST) Received: from tck01-ms.trl.mei.co.jp (BADBAD.trl.mei.co.jp [133.185.148.169]) by harold.trl.mei.co.jp (post.office MTA v2.0 0813 ID# 111-30962U510) with ESMTP id AAA261 for ; Wed, 14 Oct 1998 18:36:53 +0900 Received: from kenken.trl.mei.co.jp (kenken [133.185.148.159]) by tck01-ms.trl.mei.co.jp (8.7.5+2.6Wbeta6/sendmail.cf:TOBy-hosts:971204) with SMTP id SAA29527 for ; Wed, 14 Oct 1998 18:36:12 +0900 (JST) Received: by kenken.trl.mei.co.jp (5.x/5.5:4.5:TIS-gc:941031) id AA01257; Wed, 14 Oct 1998 18:35:55 +0900 Message-Id: <9810140935.AA01257@kenken.trl.mei.co.jp> To: irex@karc.crl.go.jp In-Reply-To: Your message of "Tue, 13 Oct 1998 23:34:19 -0400." <199810140334.XAA13387@nonki.cs.nyu.edu> Date: Wed, 14 Oct 1998 18:35:55 +0900 From: NOGUCHI Naohiko Reply-To: irex@karc.crl.go.jp X-Sequence: irex 73 Subject: [irex 73] Re: NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 11968 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f To: irex@karc.crl.go.jp In-Reply-To: Your message of "Tue, 13 Oct 1998 23:34:19 -0400." <199810140334.XAA13387@nonki.cs.nyu.edu> Date: Wed, 14 Oct 1998 18:35:55 +0900 From: NOGUCHI Naohiko Reply-To: irex@karc.crl.go.jp X-Sequence: irex 73 Subject: [irex 73] Re: NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 11968 関根さん、 野口,福重,伊藤@松下電器です。(昨日お送りした NE 定義に関する意見も主 にこの3名の討議によるものです) > > ・肩書きのみで、特定の個人を指す場合は、人名とする > > (肩書きがその当人を指し示す固有の名称として社会通念上定まっている場合) > > > > 例)天皇 (この例はよろしくないかも) > > 明治天皇 (この例はよろしくないかも) > > ダライラマ > > 始皇帝 > > ローマ法皇 > > (ただし、 > > ローマ法皇ヨハネ・パウロ2世) > > この場合には、「委員長」同様、それだけでは固有の対象を特定できないため > タグしないとしたいです。ただし、「明治天皇」「ダライラマ14世」は > 特定しているのでタグを付けたらいいかと思います。 「天皇制について」の文脈では特定の個人を指していませんが、「天皇陛下は、 軽井沢に御静養...」といった文脈では、特定の個人を指していると思います。 (文脈により判断すればいいということになりますね)そのような文脈の場合に は、タグづけが必要だと思います。 > > ・次のような場合はこれでいいでしょうか? > > > > 例)第十四代木村庄之助 ? > > 囲碁第22期名人 (タグなし) > > んーーー。。。非常に難しいですね。 > 「ダライラマ14世」からすると「第十四代木村庄之助」 > 「囲碁第22期名人」にしたい所ですが、特に後者は > 「沖電気関西研究所長」がなぜ人名ではないのかという事になってきますね。 > すべて人名ではなくしてしまったらどうかという気持になってきましたが > 皆さんどう思いますか? (この課題で桝井さんと30分以上悩みました。。) 混乱させてしまって済みません。気持ちを新たにし、ここでの関根さんの議論 を念頭に、以下に新たな案を作ってみました。(また混乱の種になるのを恐れ ずに...) [提案] ・肩書はいっさいタグづけしない(これを基本とする) ・肩書なのか人名なのか不明瞭だが、特定の個人を指し示す固有の名称として 社会通念上定まっている場合は、OPTIONAL とする。 ただし、文脈により、それが特定の個人を指していない場合は、タグづけし てはいけない。 木村庄之助 横綱若ノ花 天皇陛下は、軽井沢に御静養... 天皇制に関する議論 (タグなし) ダライラマ ・肩書と一体化した名称が定着している場合、肩書まで含めたタグづけも許す 清少納言 でも 少納言 でもOK > >[質問] > >・物語の登場人物のような空想上の人物もタグづけする、という方針でよいで > > しょうか。 > > これは、どこかで誰かと入れるべきだという議論をしたと思います。 > 今もその気持でいます。 > > >・擬人化された空想上/物語の中のキャラクターなどは、人間でなくとも > > タグで抽出するということでよいでしょうか? > > (人間であるかどうかの判断が難しい例も多いと思いますが) > > > > 例)仮面ライダー > > ウルトラマン > > ウルトラマンティガ ? > > ウルトラマンティガ ? > > ミッキーマウス > > 忠犬ハチ公 ?? > > これは私は反対です。すでに「人間でない」という言い方ができている訳で、 > そのような判断ができる以上「人名」のカテゴリには入れない方がいいと思います。 > 「忠犬ハチ公」「みなしごハッチ」「ロボコン」なんかは人名には入れたくない > ですよね? > > 確かに人間であるかどうか判断が難しいような例もあるかもしれません。 > 桝井さんと一生懸命考えました。「超人ハルク」「サイボーグ009」 > なんかは適当な例かもしれません。この場合には判定対象外としたら > いいと思います。 確認ですが、空想上/物語の中でも、人間であればタグづけはするということ でいいのですよね。人間であるかどうかは、「常識」で判断し、そこでの判断 の揺れはしょうがないということですね。了解しました。 > >・新聞記事の場合に多いと思われる「仮名」も、次のようにタグづけする、と > > いうことでよいでしょうか。それとも、タグなしとすべきでしょうか? > > > > 例)仮名:田中太郎氏 > > 仮名:氏 > > 少年は... > > この話はミーティングで出たと思いますが、確かに定義には書いてありませんね。 > どのような結論でしたっけ? (結論がなかったのでしたっけ?) > 今の私の考えは、指示的な普通名詞と同様である。 > また、表記上だけでは特定する事ができないため、タグなしだと思います。 これについても了解しました。 > 3.1.Aに「来」という例がある通り、これは野口さんの > 言われる提案2のように定義したと認識しています。 > 「フレンチ」「ウィナー」「メリケン」は形容詞であり取りたくない気が > しますが、では「日本髪」の「日本」はどうなんだと言われると困ります。 > 表記で判断しましょうか?(できるでしょうか?) これは外来語だから形態から「形容詞」という判断ができるのですが、基本的 に名詞連続において名詞は形容詞的に使われているのだから、あまりこのよう な区別をつけるのはよろしくないと思います。 それでも、せめて、 ウィンナーコーヒー アメリカンコーヒー スパゲッティナポリタン というふうにとりたいと思いますが。 我々としてはむしろ[提案1]の方がいい(普通名詞の内部から抽出してもあま り意味がない)と思っています。何故なら、[提案2]の一貫性を保つためには、 先に上げた例の他にも、以下のような抽出を行わねばならず、 古伊万里 オー・デ・コロン 和辞典 辞典 ジャパゆきさん ロイド眼鏡 イタリック プラトニックラブ 正確に抽出するために語源を辿るという作業が必要になりかねません。(これ は不毛ですよね) [提案1]の難点は、「普通名詞化している」という曖昧な定義にあると思いま すが、ABという名詞連続が普通名詞化しているかどうかの判断を、「AのB」 と言えるかどうか、あるいは「Aのそれ」という代用表現で言い替えられるか どうか、ということをよりどころにする、といった、言語学的な手法を用いる ことも考えてもいいかも知れません。 (ただし、「[提案2]の方がきっぱりしていていいし、ここで問題にしている 例はほとんど実際には出てこないからいいのだ」、ということであれば、反対 はしません) > >(3)固有物名について > > > >[疑問] > > > >3.1.4.A 「商品に関する一般的な名前」「商品の一般的な名称をあらわすもの」 > >という定義が今一つよくわからなくなっています。(以前に議論があったかも > >知れませんが) > > > >確かに、「魚沼産コシヒカリ」は最近は一つの商品名として定着してきている > >ので、それで固有名としてもいいのかもしれませんが、 > > > > 「栃木産女峰」?? > > > >といったケースはどうなるのか、よくわかりません。(これは、それほど定着 > >していない、栃木でとれた女峰、というぐらいの意味合いが強いと感じていま > >すが) > > > >これを固有物名として認めるとすると、これと > > > > 「台湾産バナナ」 > > > >との違いは何か? > > > >また、「新潟産コシヒカリ」は語義的には「魚沼産コシヒカリ」を含むと思い > >ますが、これはどうなるのか。 > > これは、まったく同じ議論を福本さん、江里口さんとは延々した覚えがあります。 > 前と同じく「慣用表現は辞書で判断する」とすると「魚沼産コシヒカリ」は > 入りませんが、我々の常識から「判定対象外」とするのが適当でしょうか? 議論の蒸し返しになってしまったようですね;-< > >また、「物のクラス」についてもよくわかりません。 > > > >何故、 > > > > 森永アイスクリーム > > カローラ > > > >なのでしょうか。これらはどちらも商品群(クラス?)を指し示していると思 > >いますが、違いは前者が一見名詞連続に見えることくらいなように思えます。 > > > >「カローラ」は商標だが「森永アイスクリーム」は商標でないというような差 > >があるかも知れませんが、では、「森永アイスクリーム」が商標登録されてい > >た場合はどうなるのでしょうか? > > 後者の理由です。 ということは、商標であるということが判断基準としてある、ということでしょ うか? つまり、商標であれば、全て とする、ということでいいのでしょ うか? > > >同様に、 > > > > 「パナソニックカーナビ」 > > 「ナショナル冷蔵庫」 > > > >などはある決められた範囲の商品群を指し示し、どちらも商標である場合、こ > >れらはどのように扱えばいいのでしょうか? > > 商標なのですか? これらは商標でないと思いますが、 「パナファクス」 「パナサート」 は商標です。(あまり一般的ではないと思いますが)これらは「カローラ」と同 じく、 になるということでよいでしょうか? > >[提案] > > > >3.1.4.A 「商品」は、3.1.4.B の「抽象物」とまとめて、以下のような定義も > >可能であるかと思います。 > > > >----------------------- > >3.1.4.A 商品名・抽象物名 > > > > 著作権/商標等、知的所有権が主張可能であるような作品、出版物、成果物 > >などの名前、商品名は、とする。 > > あるいは、その知的所有権を主張する人、団体が特定できる場合。ここでの > >知的所有権が主張可能とは、第三者が許可なくその名称を使用した場合、元々 > >の意味を故意に変更して使用した場合に、その使用を制限できる道義的、法律 > >的権利を持つことをいう。 > > なかなか科学的な定義をありがとうございます。 :-) > ただ、(桝井さんによると)著作権は50年で切れるため夏目漱石の著作権は > 切れているという話ですが、「坊っちゃん」は作品名にしたいですよね。 定義を、「その作品、出版物、成果物が出現した時に知的所有権を主張可能で ある」と変更してもいいかなと思います。 :-) 知的所有権が主張できるものというのは、独自で唯一なものであるはず(法的 にもそのような根拠で権利を認めるはずなので)それについている名前という 意味では固有名的な性格が強いと思います。 > それから、「彼はシャープのウオークマンを買った」という文章の > (論理的に矛盾がありますが、こういう文章がある事は想像できますよね) > 「ウオークマン」は商標になっているとしても、「テレビ」と同様の扱いですよね。 これは了解です。 > >(4)国名について > > > >[提案] > > > >国名については、判断の曖昧性をなくすために、組織と解釈できる場合でも無 > >理矢理 LOCATION に倒すような定義となっています。(3.1.3.B の定義) > > > >先日の議論で、「文脈により判断する」という場合が広がったように思います > >ので、この場合も、「文脈により判断する」ということでいいのではないでしょ > >うか。(その方が抽出する意味があると思います) > > > > 例)アメリカの圧力 > > 私の記憶では、先日議論をして、結局この場合には文脈ではなく、曖昧性をなくす > ためにLOCATIONとしようという形になったと覚えています。 了解しました。 --------------------------------------------------- 野口 直彦, 福重貴雄, 伊藤快 松下電器産業株式会社 TEL. 03-5460-2744 マルチメディアシステム研究所 FAX. 03-5460-2736 東京都品川区東品川 4-5-15 ---------------------------------------------------  1, filed,, Summary-line: 14-Oct to: irex@karc.crl.go.jp #[irex 74] NE-definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id VAA19830; Wed, 14 Oct 1998 21:58:50 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id VAA19149; Wed, 14 Oct 1998 21:58:48 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id KAA14509; Thu, 15 Oct 1998 10:54:03 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id KAA06298; Thu, 15 Oct 1998 10:54:01 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id KAA10100; Thu, 15 Oct 1998 10:48:08 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id KAA10095 for ; Thu, 15 Oct 1998 10:48:07 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id KAA02716 for ; Thu, 15 Oct 1998 10:48:46 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id KAA06293 for ; Thu, 15 Oct 1998 10:53:58 +0900 (JST) Received: from nonki.cs.nyu.edu (NONKI.CS.NYU.EDU [128.122.140.99]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with SMTP id KAA05852 for ; Thu, 15 Oct 1998 10:53:56 +0900 (JST) Received: by nonki.cs.nyu.edu (SMI-8.6/1.20) id VAA13555; Wed, 14 Oct 1998 21:53:51 -0400 Date: Wed, 14 Oct 1998 21:53:51 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810150153.VAA13555@nonki.cs.nyu.edu> To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: Yoshikazu Takemoto's message of Wed, 14 Oct 1998 16:25:00 +0900 <199810140727.QAA10759@wakakusa.hml.cl.nec.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 74 Subject: [irex 74] NE-definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 2497 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Wed, 14 Oct 1998 21:53:51 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: Yoshikazu Takemoto's message of Wed, 14 Oct 1998 16:25:00 +0900 <199810140727.QAA10759@wakakusa.hml.cl.nec.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 74 Subject: [irex 74] NE-definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 2497 > 【質問1】 > 規準3.1.Cに関してですが、連続固有表現内の「・」はどのように扱う > のでしょうか?例えば、以下では(a)(b)いずれが正解でしょうか? > > (a) 日本銀行福岡支店 > (b) 日本銀行・福岡支店 > > ★当方の見解: > 「・」を「の」的に扱う(規準3.1.B参照)と(a)ですが、 > むしろ記号のような扱いなので(b)でいいと考えます。 「・」「/」「 (スペース)」を含むすべての記号も「の」と同様の扱いで 上下関係の連続的表現であっても間にスペースがある場合には分るという形に した方がすっきりすると思います。 > 【質問2】 > 規準3.1.3.Cの地名に関する概略的表現について、「北部」「中部」 > 「南」などの表現も概略的表現とみなしてタグに含めないのでしょうか? > > 例えば、「九州北部」「南九州」「ロシア南部」「沖縄島南」などは、 > 「九州北部」「南九州」 > 「ロシア南部」「沖縄島南」 > という理解でよろしいでしょうか? > > ★当方の見解: > タグに含めてもよいような気もしますが、一切含めないとした方が規準とし > ては明確になると考えます。 はい。私も同意します。ただし「北九州」のように地名になっていて その意味で使われている場合には地名として全体を取ります。 > 【質問3】 > これは、質問というより確認ですが、規準3.1.3.Aから > 「米国防省」 > →「国防省」 > という解釈でよろしいでしょうか? > > ★当方の見解: > 当方が以前参加したMET1では「米国防省」 > とまとめるのが正解だったので確認したかったまでです。 > 今回のIREXの規準の方が明確でよいと思います。 はい。METの定義ではなく、IREXの定義のままでいきたいと思います。 > 【質問4】 > 油田の名称は地名か?例えば「北海油田」「チュメニ油田」など。 > > ★当方の見解: > 「北海油田」「チュメニ油田」 > のように、地名にするという考えです。 METの定義には、「北海油田」があったと思いますが、IREXではなぜか 抜けていましたね。湖が地名であるので、中に水か油かの違いだけですし :-) 地名でいいと思います。  1,, Summary-line: 14-Oct to: irex@karc.crl.go.jp #[irex 75] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id WAA19892; Wed, 14 Oct 1998 22:00:05 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id WAA19175; Wed, 14 Oct 1998 22:00:02 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id KAA14557; Thu, 15 Oct 1998 10:55:00 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id KAA06367; Thu, 15 Oct 1998 10:54:59 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id KAA10134; Thu, 15 Oct 1998 10:49:06 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id KAA10129 for ; Thu, 15 Oct 1998 10:49:05 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id KAA02722 for ; Thu, 15 Oct 1998 10:49:44 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id KAA06362 for ; Thu, 15 Oct 1998 10:54:55 +0900 (JST) Received: from nonki.cs.nyu.edu (NONKI.CS.NYU.EDU [128.122.140.99]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with SMTP id KAA05864 for ; Thu, 15 Oct 1998 10:54:53 +0900 (JST) Received: by nonki.cs.nyu.edu (SMI-8.6/1.20) id VAA13557; Wed, 14 Oct 1998 21:54:52 -0400 Date: Wed, 14 Oct 1998 21:54:52 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810150154.VAA13557@nonki.cs.nyu.edu> To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: NOGUCHI Naohiko's message of Wed, 14 Oct 1998 18:35:55 +0900 <9810140935.AA01257@kenken.trl.mei.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 75 Subject: [irex 75] NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 10543 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Wed, 14 Oct 1998 21:54:52 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: NOGUCHI Naohiko's message of Wed, 14 Oct 1998 18:35:55 +0900 <9810140935.AA01257@kenken.trl.mei.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 75 Subject: [irex 75] NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 10543 私の意見だけではなく他の方の意見も聞きたいですが、特に意見が ない場合には合意されたものとして、次のバージョンのNE定義に 反映させます。実際、正解作成の期間のために、ミーティングで言った 通り、10月16日で、とりあえず、定義を固めたいと思っています。 > 野口,福重,伊藤@松下電器です。(昨日お送りした NE 定義に関する意見も主 > にこの3名の討議によるものです) どうもありがとうございます。 (そうだと思っていました > 福重さん、伊藤さん :-) > > > ・肩書きのみで、特定の個人を指す場合は、人名とする > > > (肩書きがその当人を指し示す固有の名称として社会通念上定まっている場合) > > > > > > 例)天皇 (この例はよろしくないかも) > > > 明治天皇 (この例はよろしくないかも) > > > ダライラマ > > > 始皇帝 > > > ローマ法皇 > > > (ただし、 > > > ローマ法皇ヨハネ・パウロ2世) > > > > この場合には、「委員長」同様、それだけでは固有の対象を特定できないため > > タグしないとしたいです。ただし、「明治天皇」「ダライラマ14世」は > > 特定しているのでタグを付けたらいいかと思います。 > > 「天皇制について」の文脈では特定の個人を指していませんが、「天皇陛下は、 > 軽井沢に御静養...」といった文脈では、特定の個人を指していると思います。 > (文脈により判断すればいいということになりますね)そのような文脈の場合に > は、タグづけが必要だと思います。 「天皇」の場合の問題は「天皇」は役職名なのか固有名詞なのかということ だと思います。もし役職名だとしたら「沖電気関西研究所長は、東京で記者会見」 といった文脈で「沖電気関西研究所長」をタグ付けしないように、タグ付けすべきで ないですし、もし固有名詞なら「伊藤さんが、ハワイに観光旅行」という時の「伊藤」を タグ付けするようにタグ付けすべきだと思います。 「天皇」は決めてしまうしかないと思うのですが、「皇太子」や「皇后」も 私には役職のように感じます。 以下にあるように、天皇はOPTIONALにするのがいいと思います。 > > > ・次のような場合はこれでいいでしょうか? > > > > > > 例)第十四代木村庄之助 ? > > > 囲碁第22期名人 (タグなし) > > > > んーーー。。。非常に難しいですね。 > > 「ダライラマ14世」からすると「第十四代木村庄之助」 > > 「囲碁第22期名人」にしたい所ですが、特に後者は > > 「沖電気関西研究所長」がなぜ人名ではないのかという事になってきますね。 > > すべて人名ではなくしてしまったらどうかという気持になってきましたが > > 皆さんどう思いますか? (この課題で桝井さんと30分以上悩みました。。) > > 混乱させてしまって済みません。気持ちを新たにし、ここでの関根さんの議論 > を念頭に、以下に新たな案を作ってみました。(また混乱の種になるのを恐れ > ずに...) > > [提案] > > ・肩書はいっさいタグづけしない(これを基本とする) > > ・肩書なのか人名なのか不明瞭だが、特定の個人を指し示す固有の名称として > 社会通念上定まっている場合は、OPTIONAL とする。 > ただし、文脈により、それが特定の個人を指していない場合は、タグづけし > てはいけない。 > > 木村庄之助 > 横綱若ノ花 > 天皇陛下は、軽井沢に御静養... > 天皇制に関する議論 (タグなし) > ダライラマ ここまでは賛成します。 ちなみに、横綱も、「彼は遂に横綱の地位に就いた」というような場合には OPTIONALとはしません。(何もタグを付けません。) > ・肩書と一体化した名称が定着している場合、肩書まで含めたタグづけも許す > > 清少納言 でも > 少納言 でもOK 定義として、このようなORは許さない方が綺麗だという点と、スコアラの都合上 このような物はなしにできたら、その方がいいと思います。 このような場合にはOPTIONALにしてしまえばいいかと思います。 (伝家の宝刀を抜きすぎですかねぇ。。。。X-) > 確認ですが、空想上/物語の中でも、人間であればタグづけはするということ > でいいのですよね。人間であるかどうかは、「常識」で判断し、そこでの判断 > の揺れはしょうがないということですね。了解しました。 はい。仮想の世界でも人間の名前と判断できるものはタグ付けします。 人間かどうか判断が揺れるような場合にはOPTIONALにします。 > > 「フレンチ」「ウィナー」「メリケン」は形容詞であり取りたくない気が > > しますが、では「日本髪」の「日本」はどうなんだと言われると困ります。 > > 表記で判断しましょうか?(できるでしょうか?) > > これは外来語だから形態から「形容詞」という判断ができるのですが、基本的 > に名詞連続において名詞は形容詞的に使われているのだから、あまりこのよう > な区別をつけるのはよろしくないと思います。 > > それでも、せめて、 > > ウィンナーコーヒー > アメリカンコーヒー > スパゲッティナポリタン > > というふうにとりたいと思いますが。 > > 我々としてはむしろ[提案1]の方がいい(普通名詞の内部から抽出してもあま > り意味がない)と思っています。何故なら、[提案2]の一貫性を保つためには、 > 先に上げた例の他にも、以下のような抽出を行わねばならず、 > > 古伊万里 > オー・デ・コロン > 和辞典 > 辞典 > ジャパゆきさん > ロイド眼鏡 > イタリック > プラトニックラブ > > 正確に抽出するために語源を辿るという作業が必要になりかねません。(これ > は不毛ですよね) > > [提案1]の難点は、「普通名詞化している」という曖昧な定義にあると思いま > すが、ABという名詞連続が普通名詞化しているかどうかの判断を、「AのB」 > と言えるかどうか、あるいは「Aのそれ」という代用表現で言い替えられるか > どうか、ということをよりどころにする、といった、言語学的な手法を用いる > ことも考えてもいいかも知れません。 > > (ただし、「[提案2]の方がきっぱりしていていいし、ここで問題にしている > 例はほとんど実際には出てこないからいいのだ」、ということであれば、反対 > はしません) 複合語の話については、先日の会議前にはまさに「提案1」の形でしたが 定義が難しいという事から「提案2」にしたという経過があります。 それから、新たに語源の問題も持ち込まれてきましたが、これについても会議で 「セスナ」の例などを出して、慣用的であるかどうかを基準にするという 話しになっていたと思います。「フレンチ」「イタリアン」はこれまで意識して いませんでしたが、表記上そのままでは地名とは取れない(ニックネーム、省略でもない) という事で地名としないというのがすっきりするかと思います。 ちなみに、 辞典 辞典 辞典 辞典 だと思います。 > > >(3)固有物名について > > > > > > 「栃木産女峰」?? > > > > > >また、「新潟産コシヒカリ」は語義的には「魚沼産コシヒカリ」を含むと思い > > >ますが、これはどうなるのか。 > > > > これは、まったく同じ議論を福本さん、江里口さんとは延々した覚えがあります。 > > 前と同じく「慣用表現は辞書で判断する」とすると「魚沼産コシヒカリ」は > > 入りませんが、我々の常識から「判定対象外」とするのが適当でしょうか? > > 議論の蒸し返しになってしまったようですね;-< 結局、慣用的かどうか判定者の判断に任せるという事でいいでしょうか? > > >「カローラ」は商標だが「森永アイスクリーム」は商標でないというような差 > > >があるかも知れませんが、では、「森永アイスクリーム」が商標登録されてい > > >た場合はどうなるのでしょうか? > > 後者の理由です。 > ということは、商標であるということが判断基準としてある、ということでしょ > うか? > つまり、商標であれば、全て とする、ということでいいのでしょ > うか? はい、基本的にそれでいいと思います。 > 「パナファクス」 > 「パナサート」 > は商標です。(あまり一般的ではないと思いますが)これらは「カローラ」と同 > じく、 になるということでよいでしょうか? はい、それでいいと思います。 > > >[提案] > > > > > >3.1.4.A 「商品」は、3.1.4.B の「抽象物」とまとめて、以下のような定義も > > >可能であるかと思います。 > > > > > >----------------------- > > >3.1.4.A 商品名・抽象物名 > > > > > > 著作権/商標等、知的所有権が主張可能であるような作品、出版物、成果物 > > >などの名前、商品名は、とする。 > > > あるいは、その知的所有権を主張する人、団体が特定できる場合。ここでの > > >知的所有権が主張可能とは、第三者が許可なくその名称を使用した場合、元々 > > >の意味を故意に変更して使用した場合に、その使用を制限できる道義的、法律 > > >的権利を持つことをいう。 > > > > なかなか科学的な定義をありがとうございます。 :-) > > ただ、(桝井さんによると)著作権は50年で切れるため夏目漱石の著作権は > > 切れているという話ですが、「坊っちゃん」は作品名にしたいですよね。 > > 定義を、「その作品、出版物、成果物が出現した時に知的所有権を主張可能で > ある」と変更してもいいかなと思います。 :-) なる程。 「源氏物語」が書かれた頃には知的所有権という概念はあったのでしょうか? というのは意地悪ですねぇ。。。 B-) 野口さんらが書かれた3.1.4.Aの文章の最初の文章だけを利用させてもらって、 「であるような」に、「源氏物語」ような例外的なものも含ませてしまえばいい と思います。後半部分は、ちょっと細かすぎるので書かないでもいいように思います。 > > それから、「彼はシャープのウオークマンを買った」という文章の > > (論理的に矛盾がありますが、こういう文章がある事は想像できますよね) > > 「ウオークマン」は商標になっているとしても、「テレビ」と同様の扱いですよね。 このあたりは、コンテキストによるという部分で解釈されると考えています。 関根  1, filed,, Summary-line: 15-Oct noguchi@trl.mei.co.jp #[irex 76] Re: NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id BAA02134; Thu, 15 Oct 1998 01:11:04 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id BAA20719; Thu, 15 Oct 1998 01:11:02 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id OAA16784; Thu, 15 Oct 1998 14:05:53 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id OAA13657; Thu, 15 Oct 1998 14:05:51 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id NAA13047; Thu, 15 Oct 1998 13:59:58 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id NAA13042 for ; Thu, 15 Oct 1998 13:59:57 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id OAA02880 for ; Thu, 15 Oct 1998 14:00:36 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id OAA13652 for ; Thu, 15 Oct 1998 14:05:47 +0900 (JST) Received: from bulls.mei.co.jp (bulls.mei.co.jp [202.224.189.102]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id OAA09772 for ; Thu, 15 Oct 1998 14:05:46 +0900 (JST) Received: by bulls.mei.co.jp (8.9.1/3.7W) with ESMTP id OAA14241 for ; Thu, 15 Oct 1998 14:05:11 +0900 (JST) Received: by dodgers.mei.co.jp (8.9.1/3.7W) with ESMTP id OAA02063 for ; Thu, 15 Oct 1998 14:05:10 +0900 (JST) Received: from tck01-ms.trl.mei.co.jp (BADBAD.trl.mei.co.jp [133.185.148.169]) by harold.trl.mei.co.jp (post.office MTA v2.0 0813 ID# 111-30962U510) with ESMTP id AAA257 for ; Thu, 15 Oct 1998 14:05:21 +0900 Received: from kenken.trl.mei.co.jp (kenken [133.185.148.159]) by tck01-ms.trl.mei.co.jp (8.7.5+2.6Wbeta6/sendmail.cf:TOBy-hosts:971204) with SMTP id OAA03407 for ; Thu, 15 Oct 1998 14:04:38 +0900 (JST) Received: by kenken.trl.mei.co.jp (5.x/5.5:4.5:TIS-gc:941031) id AA01640; Thu, 15 Oct 1998 14:04:22 +0900 Message-Id: <9810150504.AA01640@kenken.trl.mei.co.jp> To: irex@karc.crl.go.jp In-Reply-To: Your message of "Wed, 14 Oct 1998 21:54:52 -0400." <199810150154.VAA13557@nonki.cs.nyu.edu> Date: Thu, 15 Oct 1998 14:04:22 +0900 From: NOGUCHI Naohiko Reply-To: irex@karc.crl.go.jp X-Sequence: irex 76 Subject: [irex 76] Re: NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 2660 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f To: irex@karc.crl.go.jp In-Reply-To: Your message of "Wed, 14 Oct 1998 21:54:52 -0400." <199810150154.VAA13557@nonki.cs.nyu.edu> Date: Thu, 15 Oct 1998 14:04:22 +0900 From: NOGUCHI Naohiko Reply-To: irex@karc.crl.go.jp X-Sequence: irex 76 Subject: [irex 76] Re: NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 2660 関根さん、 野口@松下電器です。 > > ・肩書と一体化した名称が定着している場合、肩書まで含めたタグづけも許す > > > > 清少納言 でも > > 少納言 でもOK > >定義として、このようなORは許さない方が綺麗だという点と、スコアラの都合上 >このような物はなしにできたら、その方がいいと思います。 >このような場合にはOPTIONALにしてしまえばいいかと思います。 OPTIONALにする、ということで了解しました。 >複合語の話については、先日の会議前にはまさに「提案1」の形でしたが >定義が難しいという事から「提案2」にしたという経過があります。 > >それから、新たに語源の問題も持ち込まれてきましたが、これについても会議で >「セスナ」の例などを出して、慣用的であるかどうかを基準にするという >話しになっていたと思います。「フレンチ」「イタリアン」はこれまで意識して >いませんでしたが、表記上そのままでは地名とは取れない(ニックネーム、省略でもない) >という事で地名としないというのがすっきりするかと思います。 「とにかく全てタグづけする」([提案2])でいく、ということで異論はありま せんが、一つ確認させて下さい。 ここで言っている「慣用的であるかどうか」の基準というのは、「セスナ」 「ホッチキス」「シャープペン」のように、ある語が、元々指し示していたも のとは違う、一般的なものを指すことが慣用的になってしまっている場合は、 タグをつけない、ということですよね。(当然、それらについてもタグづけす べき文脈は存在しますが) 複合語の部分表現についてはこの種の判断は難しく(というか、不可能)、例え ば、 オー・デ・コロン の場合、全体では化粧水の一種を指し示していますが、「コロン」で何を指し ているのかと言えば、やはり場所を指しているとしか言えないと思います。 五右衛門風呂 でも同様で、全体では風呂の一種を指していますが、この語の中での「五右衛 門」は人物を指しているとしか言えません。 ということなので、やはり[提案2]を採用する限り、このような複合語のタグ づけを正確に行うためには語源を辿るしかないと思います。(多分試験にはほ とんど出てこないでしょうが... :-) +------------------------------------------------------------------+ | 野口 直彦 | | 松下電器産業株式会社 TEL. 03-5460-2744 | | マルチメディアシステム研究所 FAX. 03-5460-2736 | | 東京都品川区東品川 4-5-15 EMAIL noguchi@trl.mei.co.jp | +------------------------------------------------------------------+  1, answered,, Summary-line: 15-Oct eriguchi@lit.rd.nttdata.c #[irex 77] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id DAA05377; Thu, 15 Oct 1998 03:07:42 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id DAA21575; Thu, 15 Oct 1998 03:07:38 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id QAA18069; Thu, 15 Oct 1998 16:01:46 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id QAA17770; Thu, 15 Oct 1998 16:01:45 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id PAA14671; Thu, 15 Oct 1998 15:55:51 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id PAA14666 for ; Thu, 15 Oct 1998 15:55:50 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id PAA02973 for ; Thu, 15 Oct 1998 15:56:29 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id QAA17762 for ; Thu, 15 Oct 1998 16:01:40 +0900 (JST) Received: from ms.nttdata.co.jp (ms0.nttdata.co.jp [163.135.193.231]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id QAA11861 for ; Thu, 15 Oct 1998 16:01:39 +0900 (JST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id QAA14818 for ; Thu, 15 Oct 1998 16:01:28 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id QAA03636 for ; Thu, 15 Oct 1998 16:01:27 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id QAA00811 for ; Thu, 15 Oct 1998 16:01:26 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (eriguchi@pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8/3.6W-lit-server-05/22/98) with SMTP id QAA07746 for ; Thu, 15 Oct 1998 16:01:25 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA17812; Thu, 15 Oct 98 15:58:00 JST Date: Thu, 15 Oct 98 15:58:00 JST From: Yoshio Eriguchi Message-Id: <9810150658.AA17812@pittsburgh.lit.rd.nttdata.co.jp> To: irex@karc.crl.go.jp In-Reply-To: NOGUCHI Naohiko's message of Tue, 13 Oct 1998 16:04:21 +0900 <9810130704.AA00605@kenken.trl.mei.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 77 Subject: [irex 77] NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 5211 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Thu, 15 Oct 98 15:58:00 JST From: Yoshio Eriguchi To: irex@karc.crl.go.jp In-Reply-To: NOGUCHI Naohiko's message of Tue, 13 Oct 1998 16:04:21 +0900 <9810130704.AA00605@kenken.trl.mei.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 77 Subject: [irex 77] NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 5211 江里口@NTTデータです。 名称の定義の部分の私の意見です。 とりあえず、野口さんの提案部分の(1)人名について私の意見をメイルします。 ほかも順をおって回答していきたいと思います。 >[提案] > >「3.1.2.A 役職名、敬称」には、「役職名、敬称などは人名に含めない」とあ >りますが、以下のような場合は特例とした方がよいと思います。 > > ・肩書きと一体化した名称で定着している場合は、肩書きまで人名に含める > > 例)清少納言 > 紫式部 > 虞美人 上記の場合、OPTIONALにするということで同意します。 > > 清少納言 でも > > 少納言 でもOK 本当は(タグをつけていない人と差をつけるため)両方正解にしたいですが、 正解タグの作り方とスコアラーの作成の問題から断念します。 [江里口案] 一体化してあるかどうかの判断は、広辞苑に人名としての 項目があるかどうかで判断する。 理由は、4つの辞書も調べて正解作成をするのは負担ですし、 4つの辞書にどれを使うかを最初にいわないと、結局参加者も どれを正解にするかわからないためです。 参考までに、広辞苑は次のようになっています。 私の感覚とはとてもあっています。 項目あり: 清少納言、紫式部、虞美人 明治天皇 木村庄之助 項目なし: エリザベス女王(エリザベスという項目で女王の説明はあり) 項目あるが人名ではない: 天皇 ローマ法王 ダライラマ > ・肩書はいっさいタグづけしない(これを基本とする) > > ・肩書なのか人名なのか不明瞭だが、特定の個人を指し示す固有の名称として > 社会通念上定まっている場合は、OPTIONAL とする。 > ただし、文脈により、それが特定の個人を指していない場合は、タグづけし > てはいけない。 上記については、基本的に同意します。 正し、下記の名称は意見が食い違います。 木村庄之助 --> 木村庄之助 横綱若ノ花 --> 横綱若ノ花 木村庄之助は役職名ではなく、立行事になった人がさらに名前まで襲名すると 判断でき、ダライラマとは意味合いが異なると思います。これをOPTIONALにすると ルイ14世との境界線がわからなくなります。 若ノ花については、個人に与えられた名前であるため、人名とすべきだと思います。 もし若ノ花をOPTIONALにするのであれば、芸名はOPTIONということになり、松田聖 子もOPTIONALにすべきということになります。しかし、芸名か本名かを判断するのは 私には不可能です。 > ・次のような場合はこれでいいでしょうか? > > 例)第十四代木村庄之助 ? > 囲碁第22期名人 (タグなし) また、木村庄之助を人名とした場合には、 第十四代木村庄之助 --> 十四代木村庄之助 にすべきという点も、野田さんの提案と意見が異なります。 理由は、ルイ14世と第十四代木村庄之助はほとんど同質 だと私が解釈しているからです。 >[質問] > >・物語の登場人物のような空想上の人物もタグづけする、という方針でよいで > しょうか。 > > 例)ゼウス > アリス > (注: 不思議の国のアリスの登場人物としてのアリス) > >・擬人化された空想上/物語の中のキャラクターなどは、人間でなくとも > タグで抽出するということでよいでしょうか? > (人間であるかどうかの判断が難しい例も多いと思いますが) > > 例)仮面ライダー > ウルトラマン > ウルトラマンティガ ? > ウルトラマンティガ ? > ミッキーマウス > 忠犬ハチ公 ?? 空想上の人物をタグ付けし、人間以外のキャラクターはタグをつけないということに 同意します。 ただし例のうち、神話の登場人物は人間か神か迷うので、ゼウスはOPTIONALになると思います。 >・新聞記事の場合に多いと思われる「仮名」も、次のようにタグづけする、と > いうことでよいでしょうか。それとも、タグなしとすべきでしょうか? > > 例)仮名:田中太郎氏 > 仮名:氏 > 少年は... 気持ち的には下のようにしたいです。私には田中太郎氏は指示的な普通名詞と 同様とは思えず、物語の登場人物名と同等と考えたほうが近い気がしたので。。。 (仮名と断って書くフィックションと、 仮名と断らないフィックションの違い がわからないので) でも、うまい定義が提案できないので、関根さんの意見、仮名にはタグをつけ ないことに同意します。 #うまい定義を作っている人を募集しています。 仮名:田中太郎氏 --> 仮名:田中太郎氏 仮名:A氏 --> 仮名:A氏 少年Aは... --> 少年Aは... (株)NTTデータ 技術開発本部情報科学研究所 江里口 善生 eriguchi@lit.rd.nttdata.co.jp TEL 044-548-4606 FAX 044-548-4693  1, filed,, Summary-line: 15-Oct fukumoto@kansai.oki.co.jp #[irex 78] Re: NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id EAA05494; Thu, 15 Oct 1998 04:09:29 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id EAA21906; Thu, 15 Oct 1998 04:09:27 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id RAA18867; Thu, 15 Oct 1998 17:03:44 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id RAA20080; Thu, 15 Oct 1998 17:03:43 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id QAA15478; Thu, 15 Oct 1998 16:57:49 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id QAA15473 for ; Thu, 15 Oct 1998 16:57:48 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id QAA03054 for ; Thu, 15 Oct 1998 16:58:27 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id RAA20075 for ; Thu, 15 Oct 1998 17:03:39 +0900 (JST) Received: from polo.carrot.kansai.oki.co.jp (okigate.oki.co.jp [202.226.91.194]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with SMTP id RAA12970 for ; Thu, 15 Oct 1998 17:03:37 +0900 (JST) Received: from polo (localhost.carrot.kansai.oki.co.jp [127.0.0.1]) by polo.carrot.kansai.oki.co.jp (8.6.8+2.4Wb/3.3W-94070111) with ESMTP id RAA00507 for ; Thu, 15 Oct 1998 17:07:33 +0900 Message-Id: <199810150807.RAA00507@polo.carrot.kansai.oki.co.jp> From: fukumoto@kansai.oki.co.jp (Jun'ichi Fukumoto) To: irex@karc.crl.go.jp In-reply-to: Your message of "Thu, 15 Oct 98 15:58:00 +0900." <9810150658.AA17812@pittsburgh.lit.rd.nttdata.co.jp> Date: Thu, 15 Oct 1998 17:07:32 +0900 Reply-to: fukumoto@kansai.oki.co.jp X-Sequence: irex 78 Subject: [irex 78] Re: NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 3479 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f From: fukumoto@kansai.oki.co.jp (Jun'ichi Fukumoto) To: irex@karc.crl.go.jp In-reply-to: Your message of "Thu, 15 Oct 98 15:58:00 +0900." <9810150658.AA17812@pittsburgh.lit.rd.nttdata.co.jp> Date: Thu, 15 Oct 1998 17:07:32 +0900 Reply-to: fukumoto@kansai.oki.co.jp X-Sequence: irex 78 Subject: [irex 78] Re: NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 3479 福本@沖電気 です。 他の仕事でバタバタしていましたので、とりあえず江里口さんのメイルの一部 に対するお返事だけです。 ;;; Thu, 15 Oct 98 15:58:00 JST に、 ;;; Yoshio Eriguchi ( as "江里口" ) さん曰く: 江里口> [江里口案] 江里口> 一体化してあるかどうかの判断は、広辞苑に人名としての 江里口> 項目があるかどうかで判断する。 江里口> 理由は、4つの辞書も調べて正解作成をするのは負担ですし、 江里口> 4つの辞書にどれを使うかを最初にいわないと、結局参加者も 江里口> どれを正解にするかわからないためです。 江里口> 参考までに、広辞苑は次のようになっています。 江里口> 私の感覚とはとてもあっています。 この当たりの話しになると最終的にどこかに拠り所を作らないと定義が揺れる ことになりますので、辞書に頼るというのには同意します。ここでの広辞苑の 例は、江里口さんと同じく私の感覚にもあっています。 江里口> 項目あり: 江里口> 清少納言、紫式部、虞美人 明治天皇 木村庄之助 江里口> 項目なし: 江里口> エリザベス女王(エリザベスという項目で女王の説明はあり) 江里口> 項目あるが人名ではない: 江里口> 天皇 ローマ法王 ダライラマ > ・肩書はいっさいタグづけしない(これを基本とする) > > ・肩書なのか人名なのか不明瞭だが、特定の個人を指し示す固有の名称として > 社会通念上定まっている場合は、OPTIONAL とする。 > ただし、文脈により、それが特定の個人を指していない場合は、タグづけし > てはいけない。 江里口> 上記については、基本的に同意します。 江里口> 正し、下記の名称は意見が食い違います。 江里口> 木村庄之助 --> 木村庄之助 江里口> 横綱若ノ花 --> 横綱若ノ花 江里口> 木村庄之助は役職名ではなく、立行事になった人がさらに名前まで襲名すると 江里口> 判断でき、ダライラマとは意味合いが異なると思います。これをOPTIONALにすると 江里口> ルイ14世との境界線がわからなくなります。 江里口> 若ノ花については、個人に与えられた名前であるため、人名とすべきだと思います。 江里口> もし若ノ花をOPTIONALにするのであれば、芸名はOPTIONということになり、松田聖 タギングについては私も江里口さんのものに同意します。若乃花も先代若乃花 もあることがありますので、しこ名として使われている場合にはタグ付けせず、 それが人物を指している場合にはタグ付けするというのでどうでしょう。これ も文脈によってきまるというケースでしょうか。 下の木村庄之助に従えば、先代若乃花となりますけどいか がでしょうか。 江里口> 子もOPTIONALにすべきということになります。しかし、芸名か本名かを判断するのは 江里口> 私には不可能です。 > ・次のような場合はこれでいいでしょうか? > > 例)第十四代木村庄之助 ? > 囲碁第22期名人 (タグなし) 江里口> また、木村庄之助を人名とした場合には、 江里口> 第十四代木村庄之助 --> 十四代木村庄之助 福本 淳一 (Fukumoto, Jun'ichi) [fukumoto@kansai.oki.co.jp] 沖電気工業(株)研究開発本部 関西総合研究所 [http://www.oki.co.jp/] phone. 06-949-5101 fax. 06-949-5108  1, answered,, Summary-line: 15-Oct eriguchi@lit.rd.nttdata.c #[irex 79] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id EAA05544; Thu, 15 Oct 1998 04:39:28 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id EAA22181; Thu, 15 Oct 1998 04:39:26 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id RAA19191; Thu, 15 Oct 1998 17:33:23 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id RAA21110; Thu, 15 Oct 1998 17:33:21 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id RAA15852; Thu, 15 Oct 1998 17:27:28 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id RAA15846 for ; Thu, 15 Oct 1998 17:27:27 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id RAA03071 for ; Thu, 15 Oct 1998 17:28:06 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id RAA21105 for ; Thu, 15 Oct 1998 17:33:18 +0900 (JST) Received: from ms.nttdata.co.jp (ms1.nttdata.co.jp [163.135.193.232]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id RAA13533 for ; Thu, 15 Oct 1998 17:33:17 +0900 (JST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id RAA06208 for ; Thu, 15 Oct 1998 17:33:17 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id RAA12569 for ; Thu, 15 Oct 1998 17:33:17 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id RAA02462 for ; Thu, 15 Oct 1998 17:33:16 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (eriguchi@pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8/3.6W-lit-server-05/22/98) with SMTP id RAA08736 for ; Thu, 15 Oct 1998 17:33:15 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA18330; Thu, 15 Oct 98 17:29:51 JST Date: Thu, 15 Oct 98 17:29:51 JST From: Yoshio Eriguchi Message-Id: <9810150829.AA18330@pittsburgh.lit.rd.nttdata.co.jp> To: irex@karc.crl.go.jp In-Reply-To: NOGUCHI Naohiko's message of Tue, 13 Oct 1998 16:04:21 +0900 <9810130704.AA00605@kenken.trl.mei.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 79 Subject: [irex 79] NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 6463 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Thu, 15 Oct 98 17:29:51 JST From: Yoshio Eriguchi To: irex@karc.crl.go.jp In-Reply-To: NOGUCHI Naohiko's message of Tue, 13 Oct 1998 16:04:21 +0900 <9810130704.AA00605@kenken.trl.mei.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 79 Subject: [irex 79] NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 6463 江里口@NTTデータです。 野口さんの質問の残りの部分についての回答です。 >(2)部分表現について > >[疑問] > >「3.1.A 部分表現」に、「名詞連続や接辞が付いたものでも、その一部に固有 >名詞的表現を含む場合はそれを抽出する」とありますが、名詞連続であっても、 >全体として普通名詞的に用いることが多い、あるいは全体で普通名詞化してい >るような場合はどうするのでしょうか? >そこで、以下の2案のどちらかにすることを提案します。 部分表現については、定義が難しいということで、前回の議論で提案2になった 経緯があります。 この時は、在日をタグつけしない場合に、在エジプトをつけるのは矛盾が あるという話から、定義が難しいので、思い切って全部タグをつけましょう とうい話に落ち着いた記憶があります。 しかしながら、野口さんが指摘される例を考えると、定義は簡単ですが 語源まで遡る必要がある語などもたくさんあり、提案2の方でもやはり うまくいかない気がしてきました。また、普通名詞の内部から名称を 抽出してもあまり意味がないという意見は最もだと思います。 野口>正確に抽出するために語源を辿るという作業が必要になりかねません。(これ 野口>は不毛ですよね) これはまったくその通りだと思います。 #私は正解作成者になっていますが、指摘がない限りメリケン粉、 #オー・デ・コロン、プラトニックラブ、ジャパゆきさんはタグをつ #けないと思います。 せっかく、OPTIONALという便利なものを設定できたので、 在エジプトのようなものをOPTIONALにして、提案1に変更するということは 不可能でしょうか? > 参加者の皆様 この改定は、定義の根底を覆すものになるため、この時期にやるのが不適切 と判断されるのであれば、全体の議論の場で決まった提案2の方で合意します。 >[提案1] 全体として普通名詞化している表現、慣用表現となっているものの > 部分表現は抽出しない > > → 「普通名詞化している」「慣用表現となっている」という判断は > 当然揺れると思いますが、上例の多くは救えるのではないかと思 > います。ちなみに、上例に対する我々の判断は、 > フランス人形 > フランス料理 > パリジェンヌ (タグなし) > 江戸っ子 (タグなし) > 京女、東男 (タグなし) > 瀬戸物 (タグなし) > 唐きび (タグなし) > 五右衛門風呂 (タグなし) > 川崎病 (タグなし) > ハンセン氏病 (タグなし) > 漢字 (タグなし) > 英語 (タグなし) > アメリカンコーヒー (タグなし) 野口さんの提示された例を私がタグ付けすると、全く同じタグつけをすると思います。 「普通名詞化している」「慣用表現となっている」という判断基準を次のような順序で判断する のはどうでしょうか? ・広辞苑に項目名にあがっていた場合はひとまとまりの語と判断する。 ・ABという名詞連続が「AのB」で言い替えられるときは、ひとまとまりの語としない。 言い替えた場合に別の意味になる場合は、ひとまとまりの語 ・日本語では地名でないものは地名としない。(ウィナー、アメリカン、ナポリタンなど) ・上記の条件に適合しても、他と矛盾がある場合、あるいは揺れがあるものはOPTIONALにする。 ここは、正解作成者の判断にまかせる。 野口さんの例を広辞苑で辞書びきすると、次のようになります。 ◎広辞苑に載っているもの フランス料理,パリジェンヌ,江戸っ子,京女,東男,瀬戸物,唐きび (唐黍),五右衛門風呂, 川崎病,ハンセン氏病 (ハンセン病で記載),漢字,英語, ロイド眼鏡(ロイドがセルロイドからという語源説もあり), オーデ・コロンなどが ◎載っていないもの フランス人形, アメリカンコーヒー (アメリカンという項目に、アメリカンコーヒーの略とはありましたが..) したがって、広辞苑だけでは、フランス料理と、アメリカンコーヒーが野口さん(私)の判断 が異なりますが、アメリカンコーヒーは、アメリカンが日本語では地名ではない (アメリカで区切れば日本語でも地名ですが)ので、タグつけはしない。 フランス料理は、他の辞書に載っていない国の料理(パキスタン料理)との整合性がとれないので OPTIONALにするということになると思います。 > → また、この定義を採用する場合、現在の NE 定義に出ている以下 > のような例は見直す必要があると思います。 > > 文相 > 農水大臣 > etc. 当然、提案1を採用する場合は考え直す必要がありますが、今回はどちらを採用するかわからないので コメントはパスします。 >[提案2] とにかくすべて抽出する > > → 案1ではどうしても「普通名詞化している」という判断が揺れる > ので、思いきって、全てを抽出する、という案です。 > > → この場合、上記の例のような抽出は全て行うことになりますし、 > また、一貫性を保つためには、以下のような抽出も必要でしょう。 > > フレンチレストラン > ウィンナーコーヒー > アメ車 > メリケン粉 関根>複合語の話については、先日の会議前にはまさに「提案1」の形でしたが 関根>定義が難しいという事から「提案2」にしたという経過があります。 関根> 関根>それから、新たに語源の問題も持ち込まれてきましたが、これについても会議で 関根>「セスナ」の例などを出して、慣用的であるかどうかを基準にするという 関根>話しになっていたと思います。「フレンチ」「イタリアン」はこれまで意識して 関根>いませんでしたが、表記上そのままでは地名とは取れない(ニックネーム、省略でもない) 関根>という事で地名としないというのがすっきりするかと思います。 関根>ちなみに、 関根> 関根>辞典 関根>辞典 関根>辞典 関根>辞典 関根> 関根>だと思います。 もし、提案2を採用する場合は、上記の例は、この前の議論で英語、漢字をOPTIONALにする といっていたことを踏まえると、全てOPTIONALになると思います。 (3)固有物名について (4)国名について (5)その他 上記の項目は、関根さんと同じ意見です。 -- Eriguchi  1, filed,, Summary-line: 15-Oct to: irex@karc.crl.go.jp #[irex 80] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id VAA16952; Thu, 15 Oct 1998 21:06:52 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id VAA05216; Thu, 15 Oct 1998 21:06:49 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id KAA24478; Fri, 16 Oct 1998 10:02:33 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id KAA07292; Fri, 16 Oct 1998 10:02:30 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id JAA21460; Fri, 16 Oct 1998 09:56:37 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id JAA21455 for ; Fri, 16 Oct 1998 09:56:36 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id JAA03360 for ; Fri, 16 Oct 1998 09:57:14 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id KAA07283 for ; Fri, 16 Oct 1998 10:02:26 +0900 (JST) Received: from nonki.cs.nyu.edu (NONKI.CS.NYU.EDU [128.122.140.99]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with SMTP id KAA22808 for ; Fri, 16 Oct 1998 10:02:24 +0900 (JST) Received: by nonki.cs.nyu.edu (SMI-8.6/1.20) id VAA13804; Thu, 15 Oct 1998 21:02:22 -0400 Date: Thu, 15 Oct 1998 21:02:22 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810160102.VAA13804@nonki.cs.nyu.edu> To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Thu, 15 Oct 98 15:58:00 JST <9810150658.AA17812@pittsburgh.lit.rd.nttdata.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 80 Subject: [irex 80] NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 12833 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Thu, 15 Oct 1998 21:02:22 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Thu, 15 Oct 98 15:58:00 JST <9810150658.AA17812@pittsburgh.lit.rd.nttdata.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 80 Subject: [irex 80] NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 12833 ERIGUCHI> >「3.1.2.A 役職名、敬称」には、「役職名、敬称などは人名に含めない」とあ ERIGUCHI> >りますが、以下のような場合は特例とした方がよいと思います。 ERIGUCHI> > ERIGUCHI> > ・肩書きと一体化した名称で定着している場合は、肩書きまで人名に含める ERIGUCHI> > ERIGUCHI> > 例)清少納言 ERIGUCHI> > 紫式部 ERIGUCHI> > 虞美人 ERIGUCHI> ERIGUCHI> ERIGUCHI> 上記の場合、OPTIONALにするということで同意します。 ERIGUCHI> ERIGUCHI> > > 清少納言 でも ERIGUCHI> > > 少納言 でもOK ERIGUCHI> ERIGUCHI> 本当は(タグをつけていない人と差をつけるため)両方正解にしたいですが、 ERIGUCHI> 正解タグの作り方とスコアラーの作成の問題から断念します。 ERIGUCHI> ERIGUCHI> [江里口案] ERIGUCHI> ERIGUCHI> 一体化してあるかどうかの判断は、広辞苑に人名としての ERIGUCHI> 項目があるかどうかで判断する。 ERIGUCHI> ERIGUCHI> 理由は、4つの辞書も調べて正解作成をするのは負担ですし、 ERIGUCHI> 4つの辞書にどれを使うかを最初にいわないと、結局参加者も ERIGUCHI> どれを正解にするかわからないためです。 FUKUMOTO> この当たりの話しになると最終的にどこかに拠り所を作らないと定義が揺れる FUKUMOTO> ことになりますので、辞書に頼るというのには同意します。ここでの広辞苑の FUKUMOTO> 例は、江里口さんと同じく私の感覚にもあっています。 この案は、こちらでも最初に考えましたが、例えば広辞苑と指定してしまうと、 一生懸命、広辞苑の人名のリストを入力した人の方が有利になってしまい、それではあまり 意味がないので、4つの辞書というように、間接的に常識を定義したという理由があります。 確かに、正解が参加者に分る状態にした方がいいというのは分ります。 例えば、広辞苑のCDROMから人名だけを取り出すのは簡単なのでしょうか? それを誰かが作って配布する事が可能なら、意味のなさを多少減らせる(?)、公平性 の観点から妥当だと思うので辞書を指定してしまう事に賛成します。 広辞苑ではなくて、EDRなら概念体系等を利用して簡単に抽出できるでしょうか? EDRから抽出した人名リストを再配布するのは構わないような気がしますが。 (分る人がいましたら教えてください。) 参加者の大勢が特定の辞書で指定して欲しいという事なら辞書で指定する事に してもいいと思います。この点、私の意見は少し保留させてください。 皆さんの考えを聞きたいと思います。予備試験は全体的な意見が集約できないでしょうから とりあえず特定しないでおきたいと思いますが、本試験に向けての課題としたいと思います。 ERIGUCHI> 参考までに、広辞苑は次のようになっています。 ERIGUCHI> 私の感覚とはとてもあっています。 ERIGUCHI> ERIGUCHI> 項目あり: ERIGUCHI> 清少納言、紫式部、虞美人 明治天皇 木村庄之助 ERIGUCHI> 項目なし: ERIGUCHI> エリザベス女王(エリザベスという項目で女王の説明はあり) ERIGUCHI> 項目あるが人名ではない: ERIGUCHI> 天皇 ローマ法王 ダライラマ 確かに私の感覚にも合っています。 ERIGUCHI> > ・肩書はいっさいタグづけしない(これを基本とする) ERIGUCHI> > ERIGUCHI> > ・肩書なのか人名なのか不明瞭だが、特定の個人を指し示す固有の名称として ERIGUCHI> > 社会通念上定まっている場合は、OPTIONAL とする。 ERIGUCHI> > ただし、文脈により、それが特定の個人を指していない場合は、タグづけし ERIGUCHI> > てはいけない。 ERIGUCHI> ERIGUCHI> 上記については、基本的に同意します。 ERIGUCHI> 正し、下記の名称は意見が食い違います。 ERIGUCHI> ERIGUCHI> 木村庄之助 --> 木村庄之助 ERIGUCHI> 横綱若ノ花 --> 横綱若ノ花 ERIGUCHI> ERIGUCHI> 木村庄之助は役職名ではなく、立行事になった人がさらに名前まで襲名すると ERIGUCHI> 判断でき、ダライラマとは意味合いが異なると思います。これをOPTIONALにすると ERIGUCHI> ルイ14世との境界線がわからなくなります。 なるほど、「名前を襲名する」と解釈するのですね。 上記の2つは江里口さんの意見に賛成します。 ERIGUCHI> また、木村庄之助を人名とした場合には、 ERIGUCHI> ERIGUCHI> 第十四代木村庄之助 --> 十四代木村庄之助 ERIGUCHI> ERIGUCHI> にすべきという点も、野田さんの提案と意見が異なります。 ERIGUCHI> 理由は、ルイ14世と第十四代木村庄之助はほとんど同質 ERIGUCHI> だと私が解釈しているからです。 はい、この意見も賛成します。 ERIGUCHI> 空想上の人物をタグ付けし、人間以外のキャラクターはタグをつけないということに ERIGUCHI> 同意します。 ERIGUCHI> ERIGUCHI> ただし例のうち、神話の登場人物は人間か神か迷うので、ゼウスはOPTIONALになると思います。 同じような議論を桝井さんともしました。私も江里口さんの意見でいいと思います。 ERIGUCHI> >・新聞記事の場合に多いと思われる「仮名」も、次のようにタグづけする、と ERIGUCHI> > いうことでよいでしょうか。それとも、タグなしとすべきでしょうか? ERIGUCHI> > ERIGUCHI> > 例)仮名:田中太郎氏 ERIGUCHI> > 仮名:氏 ERIGUCHI> > 少年は... ERIGUCHI> ERIGUCHI> 気持ち的には下のようにしたいです。私には田中太郎氏は指示的な普通名詞と ERIGUCHI> 同様とは思えず、物語の登場人物名と同等と考えたほうが近い気がしたので。。。 ERIGUCHI> (仮名と断って書くフィックションと、 仮名と断らないフィックションの違い ERIGUCHI> がわからないので) ERIGUCHI> でも、うまい定義が提案できないので、関根さんの意見、仮名にはタグをつけ ERIGUCHI> ないことに同意します。 ERIGUCHI> #うまい定義を作っている人を募集しています。 ERIGUCHI> ERIGUCHI> 仮名:田中太郎氏 --> 仮名:田中太郎氏 ERIGUCHI> 仮名:A氏 --> 仮名:A氏 ERIGUCHI> 少年Aは... --> 少年Aは... 気持は理解しました。 うまい定義を考えられたら、採用しましょう。現状では(予備試験では)、 報道の際に使用される仮名はタグ付けしないとします。本試験に向けての課題2ですね。 ERIGUCHI> >(2)部分表現について ERIGUCHI> > ERIGUCHI> >[疑問] ERIGUCHI> > ERIGUCHI> >「3.1.A 部分表現」に、「名詞連続や接辞が付いたものでも、その一部に固有 ERIGUCHI> >名詞的表現を含む場合はそれを抽出する」とありますが、名詞連続であっても、 ERIGUCHI> >全体として普通名詞的に用いることが多い、あるいは全体で普通名詞化してい ERIGUCHI> >るような場合はどうするのでしょうか? ERIGUCHI> >そこで、以下の2案のどちらかにすることを提案します。 ERIGUCHI> ERIGUCHI> ERIGUCHI> 部分表現については、定義が難しいということで、前回の議論で提案2になった ERIGUCHI> 経緯があります。 ERIGUCHI> ERIGUCHI> この時は、在日をタグつけしない場合に、在エジプトをつけるのは矛盾が ERIGUCHI> あるという話から、定義が難しいので、思い切って全部タグをつけましょう ERIGUCHI> とうい話に落ち着いた記憶があります。 ERIGUCHI> ERIGUCHI> しかしながら、野口さんが指摘される例を考えると、定義は簡単ですが ERIGUCHI> 語源まで遡る必要がある語などもたくさんあり、提案2の方でもやはり ERIGUCHI> うまくいかない気がしてきました。また、普通名詞の内部から名称を ERIGUCHI> 抽出してもあまり意味がないという意見は最もだと思います。 ERIGUCHI> ERIGUCHI> 野口>正確に抽出するために語源を辿るという作業が必要になりかねません。(これ ERIGUCHI> 野口>は不毛ですよね) ERIGUCHI> ERIGUCHI> これはまったくその通りだと思います。 はい、私もこの点はその通りだと思います。 METのデータで「セスナ」がタグ付けされていた時には驚きました。 (もちろん、会社を意味している文脈ではなく、普通のセスナの使用です。) ERIGUCHI> #私は正解作成者になっていますが、指摘がない限りメリケン粉、 ERIGUCHI> #オー・デ・コロン、プラトニックラブ、ジャパゆきさんはタグをつ ERIGUCHI> #けないと思います。 ERIGUCHI> ERIGUCHI> せっかく、OPTIONALという便利なものを設定できたので、 ERIGUCHI> 在エジプトのようなものをOPTIONALにして、提案1に変更するということは ERIGUCHI> 不可能でしょうか? > 参加者の皆様 ERIGUCHI> ERIGUCHI> この改定は、定義の根底を覆すものになるため、この時期にやるのが不適切 ERIGUCHI> と判断されるのであれば、全体の議論の場で決まった提案2の方で合意します。 ERIGUCHI> >[提案1] 全体として普通名詞化している表現、慣用表現となっているものの ERIGUCHI> > 部分表現は抽出しない ERIGUCHI> > ERIGUCHI> > → 「普通名詞化している」「慣用表現となっている」という判断は ERIGUCHI> > 当然揺れると思いますが、上例の多くは救えるのではないかと思 ERIGUCHI> > います。ちなみに、上例に対する我々の判断は、 ERIGUCHI> > フランス人形 ERIGUCHI> > フランス料理 ERIGUCHI> > パリジェンヌ (タグなし) ERIGUCHI> > 江戸っ子 (タグなし) ERIGUCHI> > 京女、東男 (タグなし) ERIGUCHI> > 瀬戸物 (タグなし) ERIGUCHI> > 唐きび (タグなし) ERIGUCHI> > 五右衛門風呂 (タグなし) ERIGUCHI> > 川崎病 (タグなし) ERIGUCHI> > ハンセン氏病 (タグなし) ERIGUCHI> > 漢字 (タグなし) ERIGUCHI> > 英語 (タグなし) ERIGUCHI> > アメリカンコーヒー (タグなし) ERIGUCHI> ERIGUCHI> 野口さんの提示された例を私がタグ付けすると、全く同じタグつけをすると思います。 ERIGUCHI> ERIGUCHI> 「普通名詞化している」「慣用表現となっている」という判断基準を次のような順序で判断する ERIGUCHI> のはどうでしょうか? ERIGUCHI> ERIGUCHI> ・広辞苑に項目名にあがっていた場合はひとまとまりの語と判断する。 ERIGUCHI> ・ABという名詞連続が「AのB」で言い替えられるときは、ひとまとまりの語としない。 ERIGUCHI> 言い替えた場合に別の意味になる場合は、ひとまとまりの語 ERIGUCHI> ・日本語では地名でないものは地名としない。(ウィナー、アメリカン、ナポリタンなど) ERIGUCHI> ・上記の条件に適合しても、他と矛盾がある場合、あるいは揺れがあるものはOPTIONALにする。 ERIGUCHI> ここは、正解作成者の判断にまかせる。 ERIGUCHI> ERIGUCHI> 野口さんの例を広辞苑で辞書びきすると、次のようになります。 ERIGUCHI> ERIGUCHI> ◎広辞苑に載っているもの ERIGUCHI> フランス料理,パリジェンヌ,江戸っ子,京女,東男,瀬戸物,唐きび (唐黍),五右衛門風呂, ERIGUCHI> 川崎病,ハンセン氏病 (ハンセン病で記載),漢字,英語, ERIGUCHI> ロイド眼鏡(ロイドがセルロイドからという語源説もあり), オーデ・コロンなどが ERIGUCHI> ERIGUCHI> ◎載っていないもの ERIGUCHI> フランス人形, ERIGUCHI> アメリカンコーヒー (アメリカンという項目に、アメリカンコーヒーの略とはありましたが..) ERIGUCHI> ERIGUCHI> したがって、広辞苑だけでは、フランス料理と、アメリカンコーヒーが野口さん(私)の判断 ERIGUCHI> が異なりますが、アメリカンコーヒーは、アメリカンが日本語では地名ではない ERIGUCHI> (アメリカで区切れば日本語でも地名ですが)ので、タグつけはしない。 ERIGUCHI> フランス料理は、他の辞書に載っていない国の料理(パキスタン料理)との整合性がとれないので ERIGUCHI> OPTIONALにするということになると思います。 非常に曖昧性が少なくなるようにできていると思います。 こちらの方が提案2より本来ありたい姿に近いですし、 判定もそんなに大変ではないので、予備試験はこちらの方法で いくという事にしてよいでしょうか? ただし、辞書は広辞苑とは限りません。権威ある辞書により判断する というように曖昧に定義させます。 それから、議論は是非続けていきましょう。本試験への課題3ですね。 ERIGUCHI> 関根>ちなみに、 ERIGUCHI> 関根> ERIGUCHI> 関根>辞典 ERIGUCHI> 関根>辞典 ERIGUCHI> 関根>辞典 ERIGUCHI> 関根>辞典 ERIGUCHI> 関根> ERIGUCHI> 関根>だと思います。 ERIGUCHI> ERIGUCHI> ERIGUCHI> もし、提案2を採用する場合は、上記の例は、この前の議論で英語、漢字をOPTIONALにする ERIGUCHI> といっていたことを踏まえると、全てOPTIONALになると思います。 すみません。この点忘れていました。 定義はなるべく早く書き変えます。 関根 P.S. Tipsterの会議から帰ってきました。(今は家からです。) IRについて報告があります。次のメイルで書きます。  1,, Summary-line: 15-Oct to: irex@karc.crl.go.jp #[irex 81] Tipster is over Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id VAA17002; Thu, 15 Oct 1998 21:11:06 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id VAA05352; Thu, 15 Oct 1998 21:11:04 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id KAA24574; Fri, 16 Oct 1998 10:06:49 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id KAA07500; Fri, 16 Oct 1998 10:06:47 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id KAA21507; Fri, 16 Oct 1998 10:00:54 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id KAA21502 for ; Fri, 16 Oct 1998 10:00:54 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id KAA03371 for ; Fri, 16 Oct 1998 10:01:32 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id KAA07495 for ; Fri, 16 Oct 1998 10:06:44 +0900 (JST) Received: from nonki.cs.nyu.edu (NONKI.CS.NYU.EDU [128.122.140.99]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with SMTP id KAA22888 for ; Fri, 16 Oct 1998 10:06:42 +0900 (JST) Received: by nonki.cs.nyu.edu (SMI-8.6/1.20) id VAA13850; Thu, 15 Oct 1998 21:06:41 -0400 Date: Thu, 15 Oct 1998 21:06:41 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810160106.VAA13850@nonki.cs.nyu.edu> To: irex@karc.crl.go.jp Cc: sekine@cs.nyu.edu Reply-To: irex@karc.crl.go.jp X-Sequence: irex 81 Subject: [irex 81] Tipster is over Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 2208 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Thu, 15 Oct 1998 21:06:41 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) To: irex@karc.crl.go.jp Cc: sekine@cs.nyu.edu Reply-To: irex@karc.crl.go.jp X-Sequence: irex 81 Subject: [irex 81] Tipster is over Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 2208 IREXメイリングリストの皆様: Tipsterの会議から帰ってきました。 いくつか報告事項があります。 1. We have Ms.Donna Harmon as an IREX advisor IREXの発表は好評で、何人か後で個人的に興味を示してくれました。 それから、TRECのchairであるDonna HarmonにIREXの顧問になっていただく ように要請した所、快諾を得ました。基本的に名前をいただければ幸いです' というようにお願いした所、向こうから「名前だけではなく、積極的に参加したい」 というありがたい言葉をいただきました。その後、1時間程個別に時間をいただき IREXのやり方を説明し、アドバイスを得ました。色々ありましたが、 基本的には上手くいくであろうという意見をもらいました。 ひとつ考える必要があるのは、正解判定を明確に定義すべきであるという話です。 TRECの場合には判定者に基準として「もしあなたがそのテーマでレポートを 書きたいと思った時に参考になる記事であるかどうかを正解の判定基準に してください。」という基準があるそうです。この表現は我々の基準では Bランクに相当すると思います。Aランクを定義するための分りやすい基準を 作る必要があると思います。 これで、TREC,MUC共に中心人物に参加してもらっている事になります。 また、Donna HarmonはNACSISのWorkshopにも言及されていましたが、 なるべく一緒になるように協力しているという話をして安心(?)してもらいました。 2. Workshop will be open, but need considerations not to have silly effects. 先日のミーティングで4参加者から、ワークショップがオープンでは困るという 意見をもらいましたが、IREXからの結果の発表は匿名で行なう事を条件に 4つのすべての団体からオープンで構わないという結論をいただきました。 4つの団体の担当者にはお手数をおかけしました。ただ、順位などがひとり歩きを しないような工夫を考えること。宣伝などに使用した団体にどのような処置を するかを事前に考えておく事などの意見をいただきました。 3. We may have six topics on the IR dry run. IRの予備試験では、トピックの数は5つとしていましたが、判定者の数が 多くなり、全員に練習として一課題づつやっていただきたいと思うので、 トピックの数は5つではなくて6つになる可能性が高くなっています。 関根  1,, Summary-line: 16-Oct noguchi@trl.mei.co.jp #[irex 82] Re: NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id WAA18290; Thu, 15 Oct 1998 22:07:07 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id WAA05875; Thu, 15 Oct 1998 22:07:05 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id LAA25282; Fri, 16 Oct 1998 11:01:49 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id LAA09786; Fri, 16 Oct 1998 11:01:47 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id KAA22158; Fri, 16 Oct 1998 10:55:54 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id KAA22153 for ; Fri, 16 Oct 1998 10:55:53 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id KAA03419 for ; Fri, 16 Oct 1998 10:56:31 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id LAA09781 for ; Fri, 16 Oct 1998 11:01:43 +0900 (JST) Received: from bulls.mei.co.jp (bulls.mei.co.jp [202.224.189.102]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id LAA23968 for ; Fri, 16 Oct 1998 11:01:37 +0900 (JST) Received: by bulls.mei.co.jp (8.9.1/3.7W) with ESMTP id LAA20452 for ; Fri, 16 Oct 1998 11:01:02 +0900 (JST) Received: by dodgers.mei.co.jp (8.9.1/3.7W) with ESMTP id LAA02946 for ; Fri, 16 Oct 1998 11:01:01 +0900 (JST) Received: from tck01-ms.trl.mei.co.jp (BADBAD.trl.mei.co.jp [133.185.148.169]) by harold.trl.mei.co.jp (post.office MTA v2.0 0813 ID# 111-30962U510) with ESMTP id AAA259 for ; Fri, 16 Oct 1998 11:01:12 +0900 Received: from kenken.trl.mei.co.jp (kenken [133.185.148.159]) by tck01-ms.trl.mei.co.jp (8.7.5+2.6Wbeta6/sendmail.cf:TOBy-hosts:971204) with SMTP id LAA08412 for ; Fri, 16 Oct 1998 11:00:30 +0900 (JST) Received: by kenken.trl.mei.co.jp (5.x/5.5:4.5:TIS-gc:941031) id AA02081; Fri, 16 Oct 1998 11:00:12 +0900 Message-Id: <9810160200.AA02081@kenken.trl.mei.co.jp> To: irex@karc.crl.go.jp In-Reply-To: Your message of "Thu, 15 Oct 1998 21:02:22 -0400." <199810160102.VAA13804@nonki.cs.nyu.edu> Date: Fri, 16 Oct 1998 11:00:12 +0900 From: NOGUCHI Naohiko Reply-To: irex@karc.crl.go.jp X-Sequence: irex 82 Subject: [irex 82] Re: NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 2280 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f To: irex@karc.crl.go.jp In-Reply-To: Your message of "Thu, 15 Oct 1998 21:02:22 -0400." <199810160102.VAA13804@nonki.cs.nyu.edu> Date: Fri, 16 Oct 1998 11:00:12 +0900 From: NOGUCHI Naohiko Reply-To: irex@karc.crl.go.jp X-Sequence: irex 82 Subject: [irex 82] Re: NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 2280 野口@松下電器です。 NE定義についての議論はもう〆切かと思いますが、関根さん、江里口さんのま とめのおかげで、どうやら予備試験に向けての定義はある程度固まったという 気がしています。 お手数をおかけしました。 1点だけ確認させて下さい。 ERIGUCHI> また、木村庄之助を人名とした場合には、 ERIGUCHI> ERIGUCHI> 第十四代木村庄之助 --> 十四代木村庄之助 ERIGUCHI> ERIGUCHI> にすべきという点も、野田さんの提案と意見が異なります。 ERIGUCHI> 理由は、ルイ14世と第十四代木村庄之助はほとんど同質 ERIGUCHI> だと私が解釈しているからです。 ここの部分、上のタグ付けが不完全なため、真意がよくわからなかったのです が、以下のようにタグをつける、という主張と解釈してよろしいでしょうか。 第十四代木村庄之助 ルイ14世 横綱若ノ花 第X代横綱若ノ花 先代若ノ花 ちょっとわからなくなってきました。 それから、 SEKINE> 例えば、広辞苑のCDROMから人名だけを取り出すのは簡単なのでしょうか? SEKINE> それを誰かが作って配布する事が可能なら、意味のなさを多少減らせる(?)、公平性 SEKINE> の観点から妥当だと思うので辞書を指定してしまう事に賛成します。 SEKINE> 広辞苑ではなくて、EDRなら概念体系等を利用して簡単に抽出できるでしょうか? SEKINE> EDRから抽出した人名リストを再配布するのは構わないような気がしますが。 SEKINE> (分る人がいましたら教えてください。) 広辞苑もEDRも売り物だと思うので、これらから抽出して再配布、というの はちょっとまずいと思います。(もちろん、販売元に許可を得ていればいいと 思いますが) 「広辞苑やEDRを参考に、IREX委員会で独自に作成した」ものであれば 問題はないと思いますが。 +------------------------------------------------------------------+ | 野口 直彦 | | 松下電器産業株式会社 TEL. 03-5460-2744 | | マルチメディアシステム研究所 FAX. 03-5460-2736 | | 東京都品川区東品川 4-5-15 EMAIL noguchi@trl.mei.co.jp | +------------------------------------------------------------------+  1, filed, answered,, Summary-line: 16-Oct eriguchi@lit.rd.nttdata.c #[irex 83] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id WAA18483; Thu, 15 Oct 1998 22:51:51 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id WAA06242; Thu, 15 Oct 1998 22:51:48 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id LAA25799; Fri, 16 Oct 1998 11:45:47 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id LAA11394; Fri, 16 Oct 1998 11:45:46 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id LAA22866; Fri, 16 Oct 1998 11:39:53 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id LAA22861 for ; Fri, 16 Oct 1998 11:39:52 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id LAA03525 for ; Fri, 16 Oct 1998 11:40:31 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id LAA11389 for ; Fri, 16 Oct 1998 11:45:42 +0900 (JST) Received: from ms.nttdata.co.jp (ms1.nttdata.co.jp [163.135.193.232]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id LAA24964 for ; Fri, 16 Oct 1998 11:45:41 +0900 (JST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id LAA04339 for ; Fri, 16 Oct 1998 11:45:42 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id LAA12389 for ; Fri, 16 Oct 1998 11:45:41 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id LAA10819 for ; Fri, 16 Oct 1998 11:45:40 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (eriguchi@pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8/3.6W-lit-server-05/22/98) with SMTP id LAA15814 for ; Fri, 16 Oct 1998 11:45:40 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA22301; Fri, 16 Oct 98 11:42:14 JST Date: Fri, 16 Oct 98 11:42:14 JST From: Yoshio Eriguchi Message-Id: <9810160242.AA22301@pittsburgh.lit.rd.nttdata.co.jp> To: irex@karc.crl.go.jp In-Reply-To: Satoshi Sekine's message of Thu, 15 Oct 1998 21:02:22 -0400 <199810160102.VAA13804@nonki.cs.nyu.edu> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 83 Subject: [irex 83] NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 3737 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Fri, 16 Oct 98 11:42:14 JST From: Yoshio Eriguchi To: irex@karc.crl.go.jp In-Reply-To: Satoshi Sekine's message of Thu, 15 Oct 1998 21:02:22 -0400 <199810160102.VAA13804@nonki.cs.nyu.edu> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 83 Subject: [irex 83] NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 3737 江里口です。 江里口> [江里口案] 江里口> 江里口> 一体化してあるかどうかの判断は、広辞苑に人名としての 江里口> 項目があるかどうかで判断する。 関根> この案は、こちらでも最初に考えましたが、例えば広辞苑と指定してしまうと、 関根> 一生懸命、広辞苑の人名のリストを入力した人の方が有利になってしまい、それではあまり 関根> 意味がないので、4つの辞書というように、間接的に常識を定義したという理由があります。 関根> 確かに、正解が参加者に分る状態にした方がいいというのは分ります。 関根> 関根> 例えば、広辞苑のCDROMから人名だけを取り出すのは簡単なのでしょうか? 関根> それを誰かが作って配布する事が可能なら、意味のなさを多少減らせる(?)、公平性 関根> の観点から妥当だと思うので辞書を指定してしまう事に賛成します。 関根> 広辞苑ではなくて、EDRなら概念体系等を利用して簡単に抽出できるでしょうか? 関根> EDRから抽出した人名リストを再配布するのは構わないような気がしますが。 関根> (分る人がいましたら教えてください。) 関根> 参加者の大勢が特定の辞書で指定して欲しいという事なら辞書で指定する事に 関根> してもいいと思います。この点、私の意見は少し保留させてください。 関根> 皆さんの考えを聞きたいと思います。予備試験は全体的な意見が集約できないでしょうから 関根> とりあえず特定しないでおきたいと思いますが、本試験に向けての課題としたいと思います。 関根さんの危惧も分かります。(以前、そういう話しはしてた記憶もありますし) ただこの危惧については、現在は次のように思っています。 ・広辞苑に載っている人物名は歴史上の人物についての項目は充実しているが、 姓や名のリストとしては、充実していない。 ・人名の肩書に関しては、広辞苑にのっているか否かで判断する個所を すべてOPTIONALにすればスコアには影響しない。 ・辞書に載っている項目だけを抽出するのではないので、正解の基準の 一つとして辞書を指定するのは何ら問題はない。 ・かりに辞書の語彙作りで高いスコアが出せるのであり、それを実証することは 名称特定手法として意義がある。 個人的見解では辞書の語彙を単純に充実させても、辞書の語彙の多いことで副作 用が生じるので、そう簡単にスコアは上がらないと思います。 #MET-2で大量の地名辞書を使うことをちょこっと試みましたが、うまくいかず私は #断念しました。 関根> ただし、辞書は広辞苑とは限りません。権威ある辞書により判断する 関根> というように曖昧に定義させます。 #ちょっとメイル引用の部分を省略しすぎたかもしれませんがお許しを。 広辞苑を使うことを明言したのは、常識や慣用的な使用の基準の拠 り所をはっきりしたかったからです。皆さんに、辞書とその使用方 法まで公開しておくほうが、曖昧な部分の判断を各自でできるよう になり、コンテストでの正解に対する苦情も少なくなると思います。 したがって、個人的には曖昧に定義するよりも、方針としては明確 にしていた方が、後々都合がよいように思えます。 また、辞書を使った曖昧性の排除の方法を提案してきましたが、正 解作成者の立場として、正解作成時に全ての名称を辞書を使って確 認する作業はしないと思います。正解を作ってる最中に疑問に思っ た名称や、関根さんが作成した正解と異った部分を確認する程度だ と思います。 したがって、ある程度は正解作成者の関根さんと私の語感が正解デー タに反映されるので、方針と異った正解も作ると思います。そのと きに、判断の拠り所が明確になっていれば、皆様からも指摘がしや すいし、逆に、辞書で判断できる部分の質問・修正要求が少なくな ると思います。もちろん、正解の発表時に正解の基準に使った辞書 を発表するという方法でも、この問題は解決できますが。 -- Eriguchi  1,, Summary-line: 16-Oct eriguchi@lit.rd.nttdata.c #[irex 84] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id BAA19216; Fri, 16 Oct 1998 01:07:00 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id BAA07393; Fri, 16 Oct 1998 01:06:58 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id OAA27369; Fri, 16 Oct 1998 14:00:56 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id OAA16175; Fri, 16 Oct 1998 14:00:55 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id NAA24844; Fri, 16 Oct 1998 13:55:02 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id NAA24839 for ; Fri, 16 Oct 1998 13:55:01 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id NAA03639 for ; Fri, 16 Oct 1998 13:55:39 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id OAA16170 for ; Fri, 16 Oct 1998 14:00:51 +0900 (JST) Received: from ms.nttdata.co.jp (ms1.nttdata.co.jp [163.135.193.232]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id OAA27353 for ; Fri, 16 Oct 1998 14:00:50 +0900 (JST) Received: from mx0.nttdata.co.jp (mx0.nttdata.co.jp [163.135.10.11]) by ms.nttdata.co.jp (8.8.8/3.6W-NTTDATA-TOP-09/17/98) with ESMTP id OAA25488 for ; Fri, 16 Oct 1998 14:00:50 +0900 (JST) Received: from pluto.rd.nttdata.co.jp ([163.135.16.10]) by mx0.nttdata.co.jp (8.8.5/3.5Wpl4-mx0/98091611) with ESMTP id OAA26336 for ; Fri, 16 Oct 1998 14:00:50 +0900 (JST) Received: from mail.lit.rd.nttdata.co.jp (litchi.lit.rd.nttdata.co.jp [163.135.200.130]) by pluto.rd.nttdata.co.jp (8.9.0/3.6W) with ESMTP id OAA13407 for ; Fri, 16 Oct 1998 14:00:49 +0900 (JST) Received: from pittsburgh.lit.rd.nttdata.co.jp (eriguchi@pittsburgh.lit.rd.nttdata.co.jp [163.135.200.135]) by mail.lit.rd.nttdata.co.jp (8.8.8/3.6W-lit-server-05/22/98) with SMTP id OAA17131 for ; Fri, 16 Oct 1998 14:00:48 +0900 (JST) Received: by pittsburgh.lit.rd.nttdata.co.jp (4.1/3.5W-lit-client-10/22/96) id AA22855; Fri, 16 Oct 98 13:57:22 JST Date: Fri, 16 Oct 98 13:57:22 JST From: Yoshio Eriguchi Message-Id: <9810160457.AA22855@pittsburgh.lit.rd.nttdata.co.jp> To: irex@karc.crl.go.jp In-Reply-To: NOGUCHI Naohiko's message of Fri, 16 Oct 1998 11:00:12 +0900 <9810160200.AA02081@kenken.trl.mei.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 84 Subject: [irex 84] NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 2158 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Fri, 16 Oct 98 13:57:22 JST From: Yoshio Eriguchi To: irex@karc.crl.go.jp In-Reply-To: NOGUCHI Naohiko's message of Fri, 16 Oct 1998 11:00:12 +0900 <9810160200.AA02081@kenken.trl.mei.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 84 Subject: [irex 84] NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 2158 江里口です。 江里口> また、木村庄之助を人名とした場合には、 江里口> 江里口> 第十四代木村庄之助 --> 十四代木村庄之助 野口> ここの部分、上のタグ付けが不完全なため、真意がよくわからなかったのです 野口> が、以下のようにタグをつける、という主張と解釈してよろしいでしょうか。 野口> 第十四代木村庄之助 野口> ルイ14世 野口> 横綱若ノ花 野口> 第X代横綱若ノ花 野口> 先代若ノ花 タグが変でした。失礼しました。私の主張は次のとおりです。 #福本さんと同じ意見です。 第十四代木村庄之助 ルイ14世 横綱若ノ花 第X代横綱若ノ花 先代若ノ花 <-- ここが異なっています。 先代若ノ花は、ちょっと説明が苦しいのですが、 初代若ノ花と同等の扱いとしたいです。 第X代横綱若ノ花は、第X代横綱部分は若ノ花を就職する語句で、 役職名を表していると判断しました。 「初代横綱若ノ花」という使われ方もあるようですが、これは、 初代横綱若ノ花 としたいです。 (初代 + (横綱 +若ノ花))という結び付きと考えると、初代若ノ花と 矛盾はなくなると思います。 以下は、私が前に書いたメイル中の定義の主張では、次のようにタグ付け すると考えています。(例の書き方が不足していたようなので) >木村庄之助は役職名ではなく、立行事になった人がさらに名前まで襲名すると >判断でき、ダライラマとは意味合いが異なると思います。これをOPTIONALにすると >ルイ14世との境界線がわからなくなります。 木村庄之助 十四代木村庄之助 ルイ14世 ルイ国王 <-- 多分、こんな文はないと思いますけど。 ダライラマ ※ただし、役職名の性質が明らかな文脈では、タグはなし ダライラマ14世 -- Eriguchi  1, filed,, Summary-line: 16-Oct to: irex@karc.crl.go.jp #[irex 85] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id IAA20245; Fri, 16 Oct 1998 08:19:29 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id IAA16917; Fri, 16 Oct 1998 08:19:26 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id VAA01629; Fri, 16 Oct 1998 21:14:27 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id VAA29089; Fri, 16 Oct 1998 21:14:26 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id VAA29742; Fri, 16 Oct 1998 21:08:33 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id VAA29737 for ; Fri, 16 Oct 1998 21:08:32 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id VAA03945 for ; Fri, 16 Oct 1998 21:09:10 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id VAA29084 for ; Fri, 16 Oct 1998 21:14:22 +0900 (JST) Received: from nonki.cs.nyu.edu (NONKI.CS.NYU.EDU [128.122.140.99]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with SMTP id VAA03589 for ; Fri, 16 Oct 1998 21:14:20 +0900 (JST) Received: by nonki.cs.nyu.edu (SMI-8.6/1.20) id IAA14646; Fri, 16 Oct 1998 08:14:16 -0400 Date: Fri, 16 Oct 1998 08:14:16 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810161214.IAA14646@nonki.cs.nyu.edu> To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Fri, 16 Oct 98 11:42:14 JST <9810160242.AA22301@pittsburgh.lit.rd.nttdata.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 85 Subject: [irex 85] NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 830 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Fri, 16 Oct 1998 08:14:16 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: Yoshio Eriguchi's message of Fri, 16 Oct 98 11:42:14 JST <9810160242.AA22301@pittsburgh.lit.rd.nttdata.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 85 Subject: [irex 85] NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 830 野口さん、竹元さん、江里口さん、福本さん、ありがとうございました。 このように、定義を考えるのもある意味で研究だと思いますし、 有意義な議論だったと思います。今後も是非、このような内容で話が 続けられたらと思いますが、とりあえず、予備試験に向けて定義を固めます。 第十四代木村庄之助 の辺については江里口さんの意見でいいと思います。 それから、辞書については、やはり特定せずにおきたいです。 辞書を使う事によって精度が高くなったかどうかというのは面白い 研究課題だと思いますが、定義の元である辞書を使って精度が良く なったかどうかは別問題でしょう。 この点、江里口さんの提案された もちろん、正解の発表時に正解の基準に使った辞書 を発表するという方法でも、この問題は解決できますが。 この方法は非常にいいと思います。 関根  1,, Summary-line: 18-Oct to: irex@karc.crl.go.jp #[irex 86] NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id MAA03458; Sun, 18 Oct 1998 12:30:28 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id MAA11479; Sun, 18 Oct 1998 12:30:23 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id BAA12795; Mon, 19 Oct 1998 01:26:16 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id BAA27530; Mon, 19 Oct 1998 01:26:15 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id BAA06146; Mon, 19 Oct 1998 01:20:22 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id BAA06141 for ; Mon, 19 Oct 1998 01:20:21 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id BAA04450 for ; Mon, 19 Oct 1998 01:20:58 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id BAA27525 for ; Mon, 19 Oct 1998 01:26:11 +0900 (JST) Received: from noreen.cs.nyu.edu (NOREEN.CS.NYU.EDU [128.122.140.11]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with SMTP id BAA19333 for ; Mon, 19 Oct 1998 01:26:04 +0900 (JST) Received: by noreen.cs.nyu.edu (SMI-8.6/1.20) id MAA06215; Sun, 18 Oct 1998 12:25:59 -0400 Date: Sun, 18 Oct 1998 12:25:59 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810181625.MAA06215@noreen.cs.nyu.edu> To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: NOGUCHI Naohiko's message of Tue, 13 Oct 1998 16:04:21 +0900 <9810130704.AA00605@kenken.trl.mei.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 86 Subject: [irex 86] NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 1824 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Sun, 18 Oct 1998 12:25:59 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: NOGUCHI Naohiko's message of Tue, 13 Oct 1998 16:04:21 +0900 <9810130704.AA00605@kenken.trl.mei.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 86 Subject: [irex 86] NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 1824 IREXメイリングリストの皆様: Concerning the NE definition for the dryrun. 予備試験に向けたNEの最終定義は現在作成中です。 予備試験の対象記事は抜き出しました。それを参考に 今週中くらいまでに仕上たいと思います。 # 試験に向けてどのような作業を行なうか、知っていただくために、 # 対象記事やデータを除く部分の正解作成者間で交換されるメイルを # 公開します。ただし、予備試験のみで、本試験では公開しません。 # (メイルは個人的にやりとりしますが、それをホームページに公開します。 # NEのページにリンクを張ります) ひとつ野口さんの質問でこぼしていたものがありました。 > ・PKOは行為(活動)であるので、タグは付けないと理解していますが、その > 個別の活動については以下のような揺れがあるようです。例えば、試験的な > タグづけデータでは、 > > ONUMOZ(国連モザンピーク活動) タグなし > UNAVEM2(第2次国連アンゴラ監視団) > > となっています。これらは、日本語訳は確かに「活動」「監視団」の違いは > ありますが、活動にそれほど差があるとは思えません。「タグなし」という > ことで統一した方がいいように思えます。 それぞれの表現の元は以下のようです。missionは多義ですので、どちらか 分りかねますが。。。 ONUMOZ = United Nation Operation in Mozanbique UNAVEM2 = United Nation Angola Verification Mission II (語順の違いは元の言語によるのでしょうか? 最初のはフランス語が元?) ただし、UNのホームページ(http://www.un.org/)を参考にすると、 groceryや定義を見ても内容に明確な違いがないようです。 しかし、とりあえず予備試験としては現状のまま表記を基準にするとします。 国連の活動だけに特例を作るというのは綺麗ではありませんし、 一般的な定義が今の所浮びません。本試験への課題4です。 関根  1, filed, answered,, Summary-line: 19-Oct tsuya.sakai@toshiba.co.jp #[irex 87] Re: IR output information Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id AAA13598; Mon, 19 Oct 1998 00:29:07 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id AAA19096; Mon, 19 Oct 1998 00:29:02 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id NAA17635; Mon, 19 Oct 1998 13:23:48 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id NAA10735; Mon, 19 Oct 1998 13:23:47 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id NAA10499; Mon, 19 Oct 1998 13:17:54 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id NAA10493 for ; Mon, 19 Oct 1998 13:17:50 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id NAA04756 for ; Mon, 19 Oct 1998 13:18:26 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id NAA10730 for ; Mon, 19 Oct 1998 13:23:40 +0900 (JST) Received: from inet-tsb.toshiba.co.jp (inet-tsb.toshiba.co.jp [202.33.96.40]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id NAA25680 for ; Mon, 19 Oct 1998 13:23:38 +0900 (JST) Received: from tis2.tis.toshiba.co.jp by inet-tsb.toshiba.co.jp (8.8.8/3.3W9-04/12/95) id NAA22766; Mon, 19 Oct 1998 13:23:37 +0900 (JST) Received: from mx.toshiba.co.jp by tis2.tis.toshiba.co.jp (8.8.4+2.7Wbeta4/3.3W9-95082317) id NAA13255; Mon, 19 Oct 1998 13:23:36 +0900 (JST) Received: by toshiba.co.jp (8.7.1+2.6Wbeta4/3.3W9-TOSHIBA-GLOBAL SERVER) id NAA14171; Mon, 19 Oct 1998 13:23:33 +0900 (JST) Message-Id: <199810190423.NAA14171@toshiba.co.jp> To: irex@karc.crl.go.jp cc: sekine@cs.nyu.edu In-reply-to: Your message of "Tue, 13 Oct 1998 23:33:06 -0400." <199810140333.XAA13385@nonki.cs.nyu.edu> Date: Mon, 19 Oct 1998 13:23:31 +0900 From: "Tetsuya SAKAI" Reply-To: irex@karc.crl.go.jp X-Sequence: irex 87 Subject: [irex 87] Re: IR output information Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 1498 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f To: irex@karc.crl.go.jp cc: sekine@cs.nyu.edu In-reply-to: Your message of "Tue, 13 Oct 1998 23:33:06 -0400." <199810140333.XAA13385@nonki.cs.nyu.edu> Date: Mon, 19 Oct 1998 13:23:31 +0900 From: "Tetsuya SAKAI" Reply-To: irex@karc.crl.go.jp X-Sequence: irex 87 Subject: [irex 87] Re: IR output information Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 1498 >> まずは、酒井さんのIRに関するコメントへの回答です。 >> 今回はスコアリングには使用しないかもしれない情報でもできるだけ >> 保持しておこうという考え方には100%賛同します。RANK,SCOREだけではなく >> CONFIDENCEやその他システム固有のデータでも情報として残していただければ >> 幸いです。その部分は変換プログラムで単なる文字列として扱い、 >> スコアリングには影響しないようにするという計画でした。 >> ただ、私ももう一度確認しますが、TRECのevalプログラムはSCOREを >> 基準としており、RANKの情報は無視されている筈です。したがって、 >> IREXでRANKを重視するというのとは、ちょっと食い違っています。 >> これが同順位の問題を引き起す原因になっています。 >> したがて、前のメイルで私が提案した形が一番妥当だと思っています。 >> (ただし、変換プログラムを書き直さないといけないという仕事が発生しますが) ??? 私はTRECではSCOREは無視し、RANKをもとに 11pt average precision, noninterpolated average precision, precision at document cuttoff = n などを計算しているのだと思っていましたが違うのかな。 (See TREC-6 Appendix A.) ◆◇ 酒井 哲也 tetsuya.sakai@toshiba.co.jp ◇◆ ◇◆ (株)東芝 研究開発センター 情報・通信システム研究所 ◆◇ ◆◇ ヒューマン・インタフェース技術センター TEL:044-549-2240 ◇◆ ◇◆ http://club.pep.ne.jp/~sakai3 FAX:044-520-1308 ◆◇  1,, Summary-line: 19-Oct ishikawa@ulis.ac.jp #[irex 88] Re: NE definition Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id BAA13788; Mon, 19 Oct 1998 01:40:55 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id BAA19937; Mon, 19 Oct 1998 01:40:52 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id OAA18422; Mon, 19 Oct 1998 14:35:52 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id OAA13321; Mon, 19 Oct 1998 14:35:51 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id OAA11534; Mon, 19 Oct 1998 14:29:55 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id OAA11528 for ; Mon, 19 Oct 1998 14:29:48 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id OAA04813 for ; Mon, 19 Oct 1998 14:30:24 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id OAA13316 for ; Mon, 19 Oct 1998 14:35:37 +0900 (JST) Received: from goat.ipc.ulis.ac.jp (root@goat.ipc.ulis.ac.jp [133.51.184.12]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with ESMTP id OAA26893 for ; Mon, 19 Oct 1998 14:35:36 +0900 (JST) Received: from [133.51.40.42] (peace.ulis.ac.jp [133.51.40.42]) by goat.ipc.ulis.ac.jp (8.8.6 (PHNE_14041)/8.8.6) with ESMTP id OAA13178 for ; Mon, 19 Oct 1998 14:37:05 +0900 (JST) Message-Id: <199810190537.OAA13178@goat.ipc.ulis.ac.jp> X-Sender: ishikawa@pop.ipc.ulis.ac.jp X-Mailer: Macintosh Eudora Pro Version 3.1.1-J In-Reply-To: <199810150154.VAA13557@nonki.cs.nyu.edu> References: NOGUCHI Naohiko's message of Wed, 14 Oct 1998 18:35:55 +0900 <9810140935.AA01257@kenken.trl.mei.co.jp> Mime-Version: 1.0 Content-Transfer-Encoding: 7bit Date: Mon, 19 Oct 1998 14:55:13 +0900 To: irex@karc.crl.go.jp From: Tetsuya Ishikawa Reply-To: irex@karc.crl.go.jp X-Sequence: irex 88 Subject: [irex 88] Re: NE definition Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text/plain; charset="ISO-2022-JP" Content-Length: 2291 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f X-Sender: ishikawa@pop.ipc.ulis.ac.jp X-Mailer: Macintosh Eudora Pro Version 3.1.1-J In-Reply-To: <199810150154.VAA13557@nonki.cs.nyu.edu> References: NOGUCHI Naohiko's message of Wed, 14 Oct 1998 18:35:55 +0900 <9810140935.AA01257@kenken.trl.mei.co.jp> Mime-Version: 1.0 Content-Transfer-Encoding: 7bit Date: Mon, 19 Oct 1998 14:55:13 +0900 To: irex@karc.crl.go.jp From: Tetsuya Ishikawa Reply-To: irex@karc.crl.go.jp X-Sequence: irex 88 Subject: [irex 88] Re: NE definition Sender: owner-irex@karc.crl.go.jp Content-Type: text/plain; charset="ISO-2022-JP" Content-Length: 2291 石川@図情大です。 At 9:54 PM -0400 98.10.14, Satoshi Sekine wrote: 討議を継続し、理解しきれていませんので、チグハグな発言になりますが御容赦 ください。 #ここまで厳密にタグ付けするんですか? #Muプロジェクトにて意味情報を担当していた時の苦しみを思い出しています。 難しい問題です。厳密には決定しがたいと考えますので、もう少しゆるやかに せざるをえないと考えますが(文脈理解、世界知識の利用に任せるのが理想で しょう)。 下記2件に関し、感想です。 > > 定義を、「その作品、出版物、成果物が出現した時に知的所有権を主張可能で > > ある」と変更してもいいかなと思います。 :-) > >なる程。 >「源氏物語」が書かれた頃には知的所有権という概念はあったのでしょうか? >というのは意地悪ですねぇ。。。 B-) >野口さんらが書かれた3.1.4.Aの文章の最初の文章だけを利用させてもらって、 >「であるような」に、「源氏物語」ような例外的なものも含ませてしまえばいい >と思います。後半部分は、ちょっと細かすぎるので書かないでもいいように思います。 著作権に関しては、1886年調印の著作権協定: Berne Conventionにて、世界的に認知 され出しました。当(世界)知識を当てはめてタグ付けすることは困難でしょう。 そこで、上記の”ゆるやかな”定義でよいのではないでしょうか。 もう少し厳密に言えば、作成者、作成年月日が特定できる著作物、となるでしょうが。 > > > それから、「彼はシャープのウオークマンを買った」という文章の > > > (論理的に矛盾がありますが、こういう文章がある事は想像できますよね) > > > 「ウオークマン」は商標になっているとしても、「テレビ」と同様の扱いですよね >。 > >このあたりは、コンテキストによるという部分で解釈されると考えています。 大分前になりますが、確かドイツ人だったと記憶していますが、 ウオークマンは、もはやpersonal radioの代替語になっている、と聞いたことが あります。となると、テレビと同様の扱いになりますね。 ----------------------------- 石川徹也  図書館情報大学    〒305-8550 つくば市春日1ー2 Tel.0298-59-1399, Fax.0298-59-1093 URL---http://www.ulis.ac.jp/~ishikawa/index.html Tetsuya Ishikawa University of Library and Information Science 1-2 Kasuga, Tsukuba, 305-8550 Japan, Fax. +81 298 59 1093 ----------------------------  1,, Summary-line: 19-Oct to: irex@karc.crl.go.jp #[irex 89] IR output information Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id VAA27301; Mon, 19 Oct 1998 21:36:22 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id VAA06192; Mon, 19 Oct 1998 21:36:15 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id KAA26911; Tue, 20 Oct 1998 10:31:34 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id KAA08883; Tue, 20 Oct 1998 10:31:32 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id KAA19405; Tue, 20 Oct 1998 10:25:40 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id KAA19398 for ; Tue, 20 Oct 1998 10:25:38 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id KAA05381 for ; Tue, 20 Oct 1998 10:26:14 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id KAA08878 for ; Tue, 20 Oct 1998 10:31:28 +0900 (JST) Received: from nonki.cs.nyu.edu (NONKI.CS.NYU.EDU [128.122.140.99]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with SMTP id KAA10948 for ; Tue, 20 Oct 1998 10:31:19 +0900 (JST) Received: by nonki.cs.nyu.edu (SMI-8.6/1.20) id VAA15185; Mon, 19 Oct 1998 21:31:07 -0400 Date: Mon, 19 Oct 1998 21:31:07 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810200131.VAA15185@nonki.cs.nyu.edu> To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: "Tetsuya SAKAI"'s message of Mon, 19 Oct 1998 13:23:31 +0900 <199810190423.NAA14171@toshiba.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 89 Subject: [irex 89] IR output information Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 879 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Mon, 19 Oct 1998 21:31:07 -0400 From: sekine@nonki.cs.nyu.edu (Satoshi Sekine) To: irex@karc.crl.go.jp CC: sekine@cs.nyu.edu In-reply-to: "Tetsuya SAKAI"'s message of Mon, 19 Oct 1998 13:23:31 +0900 <199810190423.NAA14171@toshiba.co.jp> Reply-To: irex@karc.crl.go.jp X-Sequence: irex 89 Subject: [irex 89] IR output information Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 879 Concerning the TREC evaluation program which we will use for the evaluation.. まだ、TREC6のプロシーディングスは確認していませんが、 trec_evalのREADMEに以下のようにあります。 ------------------- Read text tuples from trec_top_file of the form 030 Q0 ZF08-175-870 0 4238 prise1 qid iter docno rank sim run_id giving TREC document numbers (a string) retrieved by query qid (an integer) with similarity sim (a float). The other fields are ignored. Input is asssumed to be sorted numerically by qid. Sim is assumed to be higher for the docs to be retrieved first. -------------- ちなみに、このソフトウェアの作者Chris Buckleyには、先日のTipsterの ミーティングでこのプログラムを使用する事を断わってきました。 このソフトウェアへのポインタはすぐにでもIRのホームページに 付けます。 関根  1, answered,, Summary-line: 20-Oct to: irex@karc.crl.go.jp #[irex 90] IR dryrun Return-Path: Received: from cs.nyu.edu by griffin.cs.nyu.edu (SMI-8.6/1.20) id MAA10712; Tue, 20 Oct 1998 12:50:55 -0400 Received: from ns.crl.go.jp by cs.nyu.edu (SMI-8.6/1.20) id MAA15171; Tue, 20 Oct 1998 12:50:46 -0400 Received: from crlgw.crl.go.jp ([133.243.18.250]) by ns.crl.go.jp (8.9.0/3.6W) with ESMTP id BAA04791; Wed, 21 Oct 1998 01:46:09 +0900 (JST) Received: from po.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id BAA04409; Wed, 21 Oct 1998 01:46:08 +0900 (JST) Received: (from uchimoto@localhost) by po.crl.go.jp (8.8.8/3.5Wbeta) id BAA00532; Wed, 21 Oct 1998 01:40:16 +0900 (JST) X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Received: from karc.crl.go.jp (karc [133.243.25.98]) by po.crl.go.jp (8.8.8/3.5Wbeta) with ESMTP id BAA00527 for ; Wed, 21 Oct 1998 01:40:14 +0900 (JST) Received: from crlgw.crl.go.jp (crlgw [133.243.18.250]) by karc.crl.go.jp (8.8.2+2.6Wbeta9/3.4W4) with ESMTP id BAA00770 for ; Wed, 21 Oct 1998 01:40:49 +0900 (JST) Received: from mailgate.crl.go.jp (crlgw [133.243.18.250]) by crlgw.crl.go.jp (8.8.8+2.7Wbeta7/3.5Wpl7-MS980331) with ESMTP id BAA04404 for ; Wed, 21 Oct 1998 01:46:03 +0900 (JST) Received: from noreen.cs.nyu.edu (NOREEN.CS.NYU.EDU [128.122.140.11]) by mailgate.crl.go.jp (8.8.8+2.7Wbeta7/3.6W) with SMTP id BAA24617 for ; Wed, 21 Oct 1998 01:45:56 +0900 (JST) Received: by noreen.cs.nyu.edu (SMI-8.6/1.20) id MAA08299; Tue, 20 Oct 1998 12:45:46 -0400 Date: Tue, 20 Oct 1998 12:45:46 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) Message-Id: <199810201645.MAA08299@noreen.cs.nyu.edu> To: irex@karc.crl.go.jp CC: sekine@nonki.cs.nyu.edu Reply-To: irex@karc.crl.go.jp X-Sequence: irex 90 Subject: [irex 90] IR dryrun Errors-To: owner-irex@karc.crl.go.jp Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 2786 *** EOOH *** Return-Path: X-Authentication-Warning: po.crl.go.jp: uchimoto set sender to owner-irex@karc.crl.go.jp using -f Date: Tue, 20 Oct 1998 12:45:46 -0400 From: sekine@noreen.cs.nyu.edu (Satoshi Sekine) To: irex@karc.crl.go.jp CC: sekine@nonki.cs.nyu.edu Reply-To: irex@karc.crl.go.jp X-Sequence: irex 90 Subject: [irex 90] IR dryrun Sender: owner-irex@karc.crl.go.jp Content-Type: text Content-Length: 2786 Concerning IR dryrun. (scorer, tools, judge, system ID, report on topic creation) 1.スコアラ TRECのスコアラであるtrec_evalはやはりRANKではなくSIMを 使っています。実際に動かしてみました。 IREXでも、TRECにならってSIMという名称でsimilarityのメジャーを 導入します。ただし、前からあるようにRANKのみを提出しても構いません。 その場合はランクのマイナスの値をSIMとして変換プログラムが出力する ようにします。また、SIMという名前のタグがなくSCOREのみの場合には 経過処置としてそれをSIMの値と判断します。 2.ツール 変換ツールなどは今月末を目標に公開します。 (SGMLチェッカーは現在の所作成されていません。すみません。) 現在、京大の土屋君、通総研の内元君、私が作成を担当しています。 3.判定者 また、予備試験の判定者は以下の方にお願いします。 <学生判定> 1名1課題 - 学生の方には20時間分までのアルバイト料を支給します。 - データ受け渡し後2週間程で終らせていただけるように お願いしたいと思います。 九州工業大学 2名 計量計画研究所 1名 東京工業大学 2名 東京大学 1名 ニューヨーク大学 2名 北陸先端大学 2名 横浜国立大学 2名 <最終判定> それぞれ1課題ずつ - すみませんが、アルバイト料は支給できません。 - 提出データの量にもよりますが、各課題10時間程度の作業量だと 予想されます。 - データ受け渡し後2週間程で終らせていただけるように お願いしたいと思います。 NTTデータ 沖電気 ニューヨーク大学 日立製作所 北陸先端大学 リコー 以前確認はしていますが、人数の変更などありましたらお知らせください。 また、ここにある方以外でも参加したいという方がいらっしゃいましたら お知らせください。 担当者および管理者のメイルアドレスをお知らせください。 メイリングリストを作成します。 確認が取れ次第、それぞれの方に詳細をメイルします。 # なるべく、公で議論すべき事はIREXメイリングリストに出しますが、 # 一般に知られてはいけない内容はこのメイリングリストを使用します。 # その内容は予備試験が終った際に、一般に公開したいと思っています。 4. SYSTEM ID 正式に申し込みをされた方にSYSTEM IDを公布します。 参加申し込みをしたのに今週中に受け取らなかった場合には その旨、関根(sekine@cs.nyu.edu)まで連絡下さい。 NE, IR共に参加予定の方には2つのIDをそれぞれに対して お送りします。 SYSTEM IDと団体名の対応は関根、井佐原以外には厳秘です。 5. IRのトピック 現在IRのトピックを作成中です。 数名の方に妥当性のレビューをお願いしております。