固有表現抽出課題 (version 990214) --------------------------------- 1999年2月14日 1.イントロダクション 固有表現の抽出では以下の8種類の固有表現の抽出を行なう。 開始位置タグ 終了位置タグ * 固有名詞的表現 * 組織名、政府組織名 * 人名 * 地名 * 固有物名 * 時間表現 * 日付表現 * 時間表現 * 数値表現 * 金額表現 * 割合表現 それぞれの固有表現文字列の開始、終了位置に、システムは重複や入れ子のない唯一の タグのペアをふる。もし、表現が重なっている場合は、原則的に長い単位の表現を抽出 する。(例:日本銀行では日本を地名として抽出するのではなく、日本銀行全体を組織名 として抽出する。)タグの種類は上記の分類に示された通りである。 1.1 オプショナル タグ付けが判定者にも困難な場合には、,というタグを用い その範囲内の文字列に関するタグは評価の対象から外す。その範囲を越えたタグの ペアについては不正解とする。 例: 正解データ: 成田空港問題について 回答1(対象外): 成田空港問題について 回答2(対象外): 成田空港問題について 回答3(対象外): 成田空港問題について 回答4(不正解,Over-generate): 成田空港問題について オプショナルについて、正解データの中ではその詳細をなるべく記述するようにする。 フォーマットは以下のように定める。 possible-entitiesは、固有名の種類をカンマ(,)で区切って列挙する。 TYPEは以下に挙げるOPTIONALになった特別の理由を記録するためのフィールドである。 0: デフォルト。特に指定された理由に該当しない場合。 成田空港 1: 語源にまで遡らなければならない。 例:オーデコロン フランス人形 2: 空想上の表現でどの固有名か曖昧なもの。 例: ゼウス 3: 人を表わす役職名 例: 天皇 ローマ法王 4: 肩書が付いた人名の慣用的表現 例: 清少納言 紫式部 2.試験に関して 2.1.対象データ 本試験の対象データは、1999年4月14日から5月13日の毎日新聞のデータからの 100記事とする。試験はドメインを限らないものとドメインを限ったものの二種類を 行なう。限定ドメインについては3月31日に発表し、ドメイン依存性およびシステムの ポータビリティを見る目的で実験を行なう。開発に関して、1999年4月13日までに 存在する知識はどのような物をも使用して構わない。記事の比率は非限定ドメインと限定 ドメインで30:70から40:70程度を目安とするが実際の記事を見て最終的に判断される。 2.2.システム開発 システム開発は,1999年4月13日で凍結し、そのシステムを使って5月13日 に配布される対象データに対してシステムを走らせる。 2.3.対象部分 ドキュメント中で固有表現を抽出する対象部分は、ヘッドライン、要約、およびテキス トの範囲のみとする。(注意:日付の部分は除く。) それらの部分は、HEADLINE,SUMMARY または、TEXTというSGMLのダグで指定された範囲である。(そのフォーマットは毎日新聞 をmai2sgml.plでSGMLフォーマットに変換した物と同様の物である。) 2.4.データの交換 1999年5月13日に評価対象記事を電子メイルによって参加者に配布する。参加者 は同年5月17日までに、提供されているteaツールによって作成されたオフセット情 報である結果ファイルをIREX結果提出アドレス(irex-submit@karc.crl.go.jp)まで 送付する。 2.5.試験の実行 試験の実行は、試験期間中に一回だけ行なえる。ただし、実行中にシステムがクラッシ ュした場合や、出力ファイルにフォーマットのエラーが見付かった場合は、その内容を 人間が見る事なしに、次の記事から再度実行を開始できる。そのための記事セットは 記事番号インデックスファイルを作成し、記事抽出を再度行なう事で作成する。 記事の中味は試験期間中に人間が見る事は禁止する。人間が見ない限り、システムが 繰り返し記事を見渡す事は許される。 2.6.評価 一つの表現の範囲および種類が正確に抽出された時のみ正解とする。評価は、適合率(Pre cision)と再現率(Recall)に基いて計算されるF-measureという値を利用する。適合率と は、システムが生成した結果の中でどれだけが正解だったかの割合を示す。再現率は、 全正解中で、システムがどれだけ正解を見つけられたかの割合を示す。例えば、4つの固 有表現が正解としてあったとし、システムが、5つの表現を出力し、3つが正解だったと すると適合率と再現率は以下のようになり、F-measureも以下の定義で求まる。 適合率: P = 3/5 = 60% 再現率: R = 3/4 = 75% F-measure = (b^2 + 1)*P*R / (b^2*P + R) F-measureとは、評価をひとつの数字で表現できるという利点はもとより、例えば、以下 のような突飛なシステムの評価を正当に行なるという利点もある。あるシステムは、全 ドキュメント中で1つしか結果を出力しない。それが正解である場合は、再現率は非常に 低いが、適合率は100%である。しかし、このようなシステムのF-measureは非常に低くな る。逆に、あるシステムは、結果を非常に沢山出力する。その中に正解が含まれる確率 は高くなり再現率は高くなるが、逆に適合率が低くなる。相対的にこのようなシステム のF-measureは低くなる。ただし、アプリケーションによっては、適合率が重要な場合や 逆に再現率が重要な場合もあると思われるが、そのような場合はF-measure定義の中の定 数bを調整する事によって、適合率と再現率のバランスの変更ができる。 2.6 正解データの修正 試験のために作成された正解データは、参加者のリクエストによって修正される事が ある。特に断りのない限りにおいては、正解データが発表されてから1ヶ月間は、参加者 は公表された正解データに関して、質問、修正のリクエストを提出する事ができ、正解 作成者グループはそのリクエストの妥当性を検討し、妥当であると判断された物に対し ては、正解を修正する。最終的な評価は、この修正された正解データを用いて行なう。 3.定義 3.1 固有名詞的表現 固有名詞的表現は、組織名、人名、地名、固有物名の固有の対象を示す表現を言う。 固有名詞や固有名詞を含む複合語、その省略形などの形で表現されている。ただし、指 示代名詞や普通名詞を利用した照応表現はここでの抽出対象には含まない。(例:それ、 当局、同県、委員会) 表現が、例えば、組織名にも地名にも取れるものがある。(例:成田空港問題。成田空港 に着陸した。ホワイトハウスの発表。ホワイトハウスに到着した。)その場合は、使用さ れているコンテクストから、それがその場合にどちらを意味するかを参考に判断する。 それでも曖昧なものについてはOPTIONALを利用する。 以下に固有名詞的表現全体に適用される規則を示す。 3.1.A 部分表現 名詞連続や接辞が付いたものでも、その一部に固有名詞的表現を含む場合はそれを抽出 する。また、全体として慣用的に普通名詞的に用いられている場合には、そのうちの一 部が固有名詞的表現であっても、語源まで逆登らなければいけないような場合や、「言 語」の場合、その他曖昧な物についてはOPTIONALとする。表記上地名ではない物(アメ リカン、ナポリタン等)はまったく抽出しない。 NHK番組 クリントン大統領 日本市場 米軍議長 労働党沖電気関西研究所沖電気関西研究所所長 製造物責任問題検討会委員長 武蔵野音大大学院 来 農水大臣 鈴木フィリピン人 在エジプト日本企業 パリジェンヌ 江戸っ子 フランス人形 フランス料理 瀬戸きび 五右衛門風呂 川崎ハンセン氏病 オー・デ・コロン 辞典 アメリカンコーヒー スパゲッティーナポリタン 3.1.B 助詞「の」、特殊記号 助詞の「の」や特殊記号の「,.・/ (スペース)」等は固有表現を分割し、いずれ の固有表現もそれを含まない。ただし、慣用的にそのような物を含む表現や、人名で 苗字と名前を記号で継げるような場合には、それを含む。 日本銀行福岡支店 日本銀行福岡支店 日本銀行福岡支店 大阪の工場 京大長尾眞東京 銀座 影の内閣 ビル・クリントン 3.1.C 連続固有表現 連続固有表現はそれぞれが独立した固有表現で、前のものが、後のもののスーパークラ スになっている場合は分割しない。ただし、並列な固有表現が連続している場合には それらは分割する。また、部分的な並列表現で分割すると違った意味のものを生んで しまう場合には分割しない。 日本銀行福岡支店 東工大水泳部 東京読売巨人軍 東京都目黒区大岡山2−12−1 東京銀座 米軍立川基地 東京大阪 両国 議長 チェコスロバキア 南北朝鮮 中南米 衆参議院 また、正式名称であると分る物はすべてまとめて抽出する。 在ナイジェリア日本大使館 3.1.D 省略形、ニックネーム 省略形、ニックネームは固有表現が含まれている場合はすべて抽出する。ただし、省略 であっても一般名詞のみを使い照応として使われている場合は抽出しない。 NRA ホワイトハウスの発表によると 広島巨人 北朝鮮 きょん2 ミッチーコール 明治 (明治生命と文脈で分る場合) 東武鉄道...当鉄道は... 田中教授...教授は... 3.1.E 入れ子 入れ子の場合は、一番外の固有表現のみを抽出する。 松下貿易(松貿)株式会社 以下のような場合には注意が必要である。 松下貿易株式会社松貿) 3.1.F 特殊シンボル かっこ、かぎかっこ、強調のためのシンボルは、それが固有表現の内部にあれば入れる が、外にある場合は入れない。 ビト・”ザ・ゴッドファーザー”・コーレオン橋竜」カラー 「平和のためのパートナーシップ」(PFP)協定 3.1.G 漠然とした対象 固有名詞的表現であっても、宗教名、特定の対象を示さないグループ名、漠然と複数の 組織を示す表現は抽出しない。(特例:組織名として表現されている宗教名はオプショ ナルとする) 民主リベラル新党 過激派 保守派 セルビア人勢力 JR各社 国営四現業 関係七組合 夏の収穫祭 警察 彼はイスラム原理主義者である。 浄土真宗本願寺派がビデオを発売した。 オウム真理教が訴えを起した。 但し、 警察庁 東京都警視庁 3.1.H イベント名、事件名 イベント名は、いづれの固有表現にも当らないとし抽出しない。 長野オリンピック リオ・カーニバル リクルート事件発覚 ロッキード事件 通常国会 湾岸戦争 3.1.I 漢字の読み 漢字の名前等の読みが()内等に記述されている場合、その読みについても抽出する。 有馬朗人氏(ありま・あきと京極純一氏(きょうごく・じゅんいち長尾眞まこと)氏 3.1.J 接頭辞 「旧」「新」等の接頭辞は一般に、個体を区別するために付いているので、固有表現に 含める。 旧ユーゴスラビア 新田中派 3.1.K 空想上の対象 空想上の対象でも、それが組織名、人物、地名、固有物名を現わすものであれば、タグ 付けする。物語、本、小説、劇、芝居、テレビ、ラジオなどの場合でも同様である。 ただし、空想上の対象でも、明かにそのような対象外であるもの(例えば、空想上の動物) はタグ付けしない。その中間である曖昧な対象はOPTIONALとする。 アリスは不思議な国を旅行します。 寅さん富士見山に出掛けました。 地球防衛軍隊長 ミッキーマウス みなしごハッチ サイボーグ009 ギリシャ神話ゼウス 3.1.L 仮名 仮名を使用した表現は抽出しない。 仮名:田中太郎氏 仮名:A氏 少年Aは... 企業Bの発売した商品C 3.1.M 一般的な表現 一般的な表現を使用し、文脈を使用しないと特定の対象を認定できない表現は、それを 固有名として抽出しない。 総務部 首都 福岡支店 ただし、組織名の連続表現で、上下関係の組織名が連続している時などには組み合わせ て組織名とする。(3.1.Cを参照の事) 日本銀行福岡支店 また、慣用的にそのような一般的な表現であるが、それが特定の対象を指している場合 や普通名詞の組み合わせなどで固有名を指している場合には抽出する。 国会 影の内閣 3.1.N 新聞の名前 新聞の名前は、「報じる」「インタビューした」というような動作の主体となっている 場合には組織名とし、「に載っている」といった物として暑かわれている場合には 固有物名とする。 毎日新聞が行なったアンケートによると、 15日付けのニューヨークタイムズによると、 3.1.1 組織名 組織名とは、複数の人間で構成され、共通の目的を持った組織等の名称の事である。株 式会社等の会社、固有の政府組織、学校、軍、スポーツチーム、国際組織、労働組合、 工場、ホテル、空港、病院、教会やなんらかの目的を持ったグループ等もその対象が組 織としての意味で使われている文脈においては組織名とする。政府組織に関する注意事 項は3.1.1.Bを参照の事。 富士通研究所株式会社 国会 九州工業大学工学部 区立八雲小学校 アメリカ軍 パレスチナ警察部隊 西武ライオンズ 国連 欧州連合 JR東日本 富士通労組 宮田工場 全日空ホテル 三沢基地 成田空港 長野歯科 聖オルバン教会 サザンオールスターズ IREX実行委員会 改革ビジョン委員会 3.1.1.A 接辞 組織名を表す接辞は組織名に含める。 松下電器産業株式会社 学校法人みどり学園 (財)計量計画研究所 3.1.1.B 政府組織 省庁等の政府組織、政党、政党内派閥、軍隊、大使館のような固有の組織の名称は組織 名とする。 通産省 参院 経団連 自民党 宮沢派 創政会 ロシア軍 在ナイジェリア日本大使館 「与野党」「与党」「野党」は固有の名前ではなく、政党の種類を示す普通名詞と判断 し、組織名とはしない。また、閣議は組織ではない。 与野党 与党 野党 閣議 政権名、政府名は対象の範囲が具体的、確定的でなく慣用的に用いられる名称であるた め、全体としては組織名としない。 細川政権 クリントン政権 日本政府 政府 ただし、内閣は対象が明確になっているため、固有名詞表現と共に用いられるときには 組織名とする。 橋本内閣 影の内閣 3.1.1.C スポーツリーグ等の名前 スポーツのリーグ名は運営組織の名前でもある事もあるが、直接に組織を指してない 場合にはOPTIONALとする。 Jリーグ プロ野球 大リーグ 3.1.2 人名 3.1.2.A 役職名、敬称 役職名、敬称などは人名に含めない。 長尾総長 田中教授 プロフェッサー・グリッシュマン 石川氏 役職名がそのまま特定の人を表わし、文脈的にもその表現が役職ではなく人を表わして いるような場合はOPTIONALとする。襲名する名前については3.1.2.Dを参照の事。 天皇 ローマ法王 ダライラマ ただし、一般に役職名として使用される表現で照応として使われている場合にはOPTIONAL としない。 首相 大統領 3.1.2.B 賞名 固有の賞などに名前が使用されていても、人名とはしない。賞は固有物名とする。 ノーベル賞 芥川賞 3.1.2.C 肩書が付いた慣用的表現 人名に肩書が付いて慣用的に表現されている人名はOPTIONALとする。慣用的がどうかの 判断は正解作成者の判断とする。 清少納言 紫式部 虞美人 エリザベス女王 3.1.2.D 襲名する名前 襲名する名前は人名とする。また、固有のエンティティーを示す数字などの表現が 付いた場合はそれも含めて人名とする。 木村庄之助 横綱若ノ花 第十四代木村庄之助 先代若ノ花 本因坊 3.1.3 地名 地名は、大陸、国名、地域名、都市名、地方名、県名、町名、村名、道路名、住所、駅 名、線路名、モニュメント、海洋名、湾、運河、川名、池名、湖名、島、公園、山、砂 漠の名前などを含む。(星、惑星、衛星の名前等は地名としない。) 太平洋 東京都 入間郡 日本 北方領土 対馬海峡 関東山脈 銀座 県道104号線 井の頭線 太宰府天満宮 富士インターチェンジ 法隆寺駅 隅田川 富士山 北海油田 チュメニ油田 オランダ人 地球 月 北極星 3.1.3.A 組織名の前に付く国名 組織名に国名などが付いている場合は、その名前が正式な組織名に含まれている場合に は、組織名として含むが、修飾語として付いている場合には、地名として別に扱う。 日本鋼管 日本IBM フォルクスワーゲン社 アメリカン航空 アメリカ国防省 国防省 3.1.3.B 単独に用いられている地名 単独に用いられている地名は、それが組織を指すような場合でも地名とする。 アメリカの圧力 永田町の決断 3.1.3.C 概略的表現 地方、地域、周辺、内、圏、諸国、方角、部、沿岸、沖などのついた概略的表現は 地名表現には入れない。 竹島周辺 竹島北部 竹島南 南竹島 関東地方 北極東欧諸国 宮城県静岡県沿岸 国内 都内 県内 道内 北海道内 海外 ただし、方角の付いた地名が正式な地名である場合には、含めて地名とする。 南阿佐ヶ谷 中南米 3.1.3.D 民族名 同等の地名が存在しない民族名は地名としない。曖昧な場合にはOPTIONALとする。 マサイ族 ツチ族 アイヌ人 3.1.3.E 郵便番号 郵便番号は地名に含めない。 〒150東京都渋谷区恵比寿4の20の1 3.1.3.F 駅名 駅名の前に会社名、路線名が付いている場合には合せて地名とする。 JR新宿駅 山陽本線大久保駅 3.1.3.G 国籍名 国籍の場合には、国名との区切が曖昧であるが以下のように「国籍」という部分を 除いた部分だけを地名とする。 日本国籍 カナダ国籍 国籍 国籍 3.1.3.H 細部の場所 地名は最低、建物の単位までとし、階数や、建物内の特殊な場所のような細部までは 地名としない。 エンパイヤービル102階 新宿駅南口 成田空港第1旅客ターミナルビル南ウィング 3.1.4 固有物名 人間の活動によって作られた具体物、抽象物を含む物の固有の名前 3.1.4.A 商品と種類 一般に商品を指す商標は商品名であり、固有物名としてタグ付けする。 クラスと判断される物については固有物名として抽出しない。 魚沼産コシヒカリ コシヒカリ ペンティアムプロセッサ ペンティアム200MHz CPUチップ カローラ 乗用車 パナファックス ファックス ナショナル冷蔵庫 3.1.4.B 抽象物名 著作権、知的所有権が主張可能であるような作品名、出版物、成果物、法律名、 法案名、条約名、理論名等の抽象的な物も現実に文書などの形で存在するものは 固有物名とする。 おしん 渡る世間は鬼ばかり ベートーベンピアノ協奏曲5番 企業福祉度調査結果報告書 憲法 民法 放送法 PL法案 サンフランシスコ条約 日米安保 3.1.4.C 建築物 建築物も、それがコンテクスト上、物として表現されている時には固有物名とする。 敦賀原発1号機が竣工した。 エンパイアーステートビルの完成は1931である。 3.1.4.D 行為 訴訟、判決、活動のような行為が主な要因である名前は固有物名としない。 第三次横田基地騒音訴訟 最高裁判決 PKO 3.1.4.E 賞名 賞の名前は固有物名とするが、ランキングに関するものは固有物名としない。ただし、 賞の名前でも、単独に書かれていて、文脈を使わずにそれだけでは何の賞だか分ら ない場合にはOPTIONALとする。 ノーベル賞 芥川賞 最優秀賞 大賞 第60回全国高校野球選手権優勝 金メダル 六位入賞 3.1.4.F 理論,法則、学説、論文 理論、法則、学説、等も、たとえそれが自然の描写であっても、人間が作るため人工物 であるため、固有物名とする。 特殊相対性理論 ホーキング宇宙論 地動説 ハンチントンの「文明の衝突」という論文 ハンチントン論文 3.1.4.G ブランド名 ブランド名は文脈により、組織名または固有物名となる。 グッチのバック グッチを買ってもらった。 3.1.4.H 物のクラス 物のクラスを表わす表現は固有物名としない。ただし、ある決まった範囲の物に固有名 が付いている場合には固有物名とする。 森永アイスクリーム 橋田ドラマ エンデバーATシリーズ カローラ 3.1.4.I 一般名詞的な使用 商標となっている固有物名でも、コンテクストとして一般的な用いられ方がされている 時には固有物名としない。 彼はシャープのウオークマンを買った。 このホッチキスは使いやすい。 あのセスナ機はとても綺麗だ。 3.1.4.J 株 明かに株の事を差していると分る物は固有物名とする。最後に「株」という接辞がない 会社名で、文脈上も株かどうか判断の付かない場合には組織名とする。 3.1.4.K サービス名 抽象的なサービスの名前も商品名同様に固有物名とする。たとえば、以下のように列車 や飛行機の便名は、その車体や機体を指している訳ではなく、そのサービスに付せられ たサービスの名前だとする。ただし、MMF、PL保険など一般的な名前はクラス名と 判断する。 ひかり123号 JAL10便 MMF PL保険 3.1.4.L 主義、制度、税 主義、制度、税の名前は固有物名とはしない。 資本主義 中選挙区制度 消費税 3.1.4.M テレビ番組名、講演名 本、テレビ、ビデオ、映画の名前は固有物名とするが、講演名、講座名は行為とも 見倣せるためOPTIONALにする 「世界の終りとハードボイルドワンダーランド紅白歌合戦 E.T.日本文化のコンセプト」という講演 「女性学講座」 3.2 時間表現 時間表現では、絶対的な表現(例えば、1998年5月14日)や,基点が明確であり絶 対的な時間が分るような相対的な表現(記事の日付を含む文脈に基点としての今日が明確 である場合の「前日」)を抽出する。日時は、その単位が24時間以上である物を差し、時 間は、その単位が24時間以下であるものを指す。また、実時間のタイムライン上にマッピ ングできる物は、その具体的な時期を確定できなくても時間表現とする。 5月14日 9月最初の月曜 日本時間14日 去年春休み ある秋 ロケに行った前日 3.2.A 相対的表現 以下のような相対的表現は基点が文脈から明かであり、特定の日付を差している場合は 時間表現とする。特定の時なのか長さを指しているのか曖昧な場合にはOPTIONALにする。 前日 前世紀 昨秋 一昨日 先月 今週土曜日 今週土曜日 今年 本日 来週 翌年 次週 4日後 一ヶ月前 来年末 今世紀初め 失踪前日 優勝戦 創業10周年 戦後50年の年 数日前から行方不明であった 3.2.B 特定の時を指さない表現 例えば、「彼等は毎年、前年の例に習っている」という場合の前年は相対的表現では あるが、一般的な表現であり、どの年か特定する物ではないので時間表現とはしない。 彼等は毎年、前年の例に習っている 毎週金曜午後六時 新春恒例 クラスとして表現されている季節なども、特定の時を指していないので時間表現とはしない。 夏は暑いものだ。 今年は選択の年 朝刊、夕刊 また、漠然とした表現も時間表現とはしない。ただし、今日(こんにち)に ついては、3.2.Jを参考の事。 現在 最近 晩年 後日 3.2.C 範囲表現 範囲表現は、全体を時間表現とはせずに、個別の部分を抽出する。 4月3日から4月11日まで 以降まで 6月一杯 4月内 3.2.D 照応 照応的表現で時間を表わしている場合は時間表現として抽出しない。これは、指示代名 詞を利用した複合的表現でも同様である。 この日 その時 同日 当日 即日 一両日 ただし、以前の文脈を照応で利用したような表現があった場合に、照応 されていない部分があったら、その部分を時間表現として抽出する。 1998年には、。。。。その 3.2.E 時間の長さの表現 一時の時間表現ではなく時間の長さとしての時間の表現は時間表現としない。 2時間 五週間 それ以降の23年間 3.2.F ニックネーム、祝日、祭日 慣用的に広く使用されている時代や時を表わす言語的表現も時間表現とする。ただし、 形容的に表現されている場合や、限られたコミュニティのみで使用されている物、 開始、終了時間が不明である物は時間表現とはしない。この点で曖昧なものは OPTIONALとする。 徳川時代 新石器時代 関根名人時代 ソ連時代 こどもの日 イスラエル建国記念日 みみの日 鉄道の日 細川内閣時代 東工大開校記念日 義母の日 110番の日 燃えないゴミの日 バブル時代 新しい時代 彼の全盛期 野茂選手の新日鉄境時代 3.2.G 連続表現 入れ子や連続表現に関する規則は固有名詞的表現に準ずる。 1973(昭和48)年1月 1973年昭和48年4月3−11日 4月3日から11日 4月3日4日 4月3日土曜日 4月3日土曜日 3.2.H ぶり、以内 「ぶり」や「以内」等を伴なった表現は特定の時を示すものではないので時間表現とは しない 三ヶ月ぶり 二年以内 3.2.I 概略表現 「頃」や「前後」といった概略表現は時間表現に含めない。ただし、相対的な表現の 場合には、概略表現が含まれる場合もある。 すぎ 2月5日前後 二十年くらい前に起きた事件 3.2.J こんにち 今日(こんにち)は漠然とした表現ではあるが、今日(きょう)との区別が難しいため すべて時間表現とする。 3.2.K スポーツなどでの時間 スポーツなどにおける時間も時間表現とする。 前半 その、ボールはゴール内にあった。 3.2.1 日付表現 21世紀 1970年代 98年 昨年 昨年春 5月 1998年5月14日 来年後半 6月下旬 62年暮れ 3.2.2 時間表現 3.3 数値表現 金額表現、割合表現を数値表現として抽出する。 3.3.A 概算表現 概算表現は数値表現に含めない。 約500億円 50ドル以上 0.5%くらい 20%1000円弱 3.3.B 代理表現 「数」「幾」等を使用した代理表現は数値表現とする。 ただし、固定の値が存在しないと判断できる疑問的な代理表現は数値表現としない。 数十兆円 幾千万円 数十パーセント 各社で設定された○○パーセントという閾値 3.3.C 範囲表現 範囲表現は全体を数値表現とはせずに、個別の部分を数値表現とする。 114円から116円の範囲 15%以上20%以下 3.3.D 連続表現 入れ子や連続表現に関する規則は固有名詞的表現の規則に準ずる。 20%30% 10−20% 3.3.1 金額表現 500億円 $104,500 123カナダドル 3.3.1.A 単位のない表現 単独で表われる単位のない金額表現もそれが金額である事が明らかならば金額表現と する。ただし、範囲表現などで、他に単位がある場合には3.3.Dにより単位のない 部分だけを金額表現とするという事はしない。 その土地は時価五千万である。 五千−六千万円 五千から六千万円 3.3.2 割合表現 20% 120パーセント −1.2% 5割 5分の1 2倍 半分 速 3.3.2.A 間接的表現 表現として直接的でなく曖昧な割合表現は含めない。 12ポイント 3.3.2.B 比率 比率を用いた割合表現はOPTIONALとする。ただしスポーツの結果などにお ける同様の表現は割合表現とはしない。 1対2の比 1:2の比 巨人は15対0で大勝 3.3.2.C 半 「半」については、以下のようなものは明確な割合表現ではないとする。 大半 半ば 前半 後半 半透明 半月 下半身 半壊 半焼 半強制的 ただし、以下のような場合には割合表現とする。 五時間 四半世紀 過数 北球 3.3.2.D 慣用的な表現 以下のような慣用的な表現では割合表現とはしない プライドは人一倍。