000: 手でタグ付け 001: ?のついているものを解決 (まだ一部残っている) 002: 各NEのリストから明らかな間違いを探し、訂正 003: 各NEのリストを見ながら、要注意の物、間違っている物を確認および訂正 以下、それぞれの元NE種類毎に列挙する。最終的に変更、修正が行なわれている。 ORG = JR,Jリーグ,ウェザー・リポート,安全,外信部,外報部、 教育、極東ノート、軍事委員会、工人日報、国連子どもの権利委員会に、 事故調,首相にする会,首相官邸調理室長,大本営,中座,那覇西,日本校 日本新,富士、保安、北島コーポレーションク LOC = Kou〓,ダイエーハーバーランドシティ,TBS,ギャラリー砂翁・トモス, ジャム・カシミール州ラダック地方,トウキョー、バイコヌール宇宙基地、 安息日、大いなる戦いの場、日本人、年末、武村正義、豊臣秀頼、北勝海、 旭富士、本土、阿国、官邸、大統領官邸、健一、幸子、国立、今年秋、 坂本正一、都庁前、米本団地 大統領官邸はLOCだが、官邸だけではLOCとしない。 PERSON = は橘いずみ、アジア、太平洋、エリツィ、オセロー、(カーン、ポーター)、 シェークスピア、ジュムラ地区ディディチャル、ネパール、チャン・タイン・ベ 浦、算砂、四方、次男、秦正流、台湾、竹取翁、長崎県、島朗、寅、寅さん、 八百山 ARTIFACT = 「300X」型、アバターの島、サルからヒトへの進化、花子、 月間最優秀選手、公爵さま、高校三年生、大賞、日替わり定食 DATE = お盆期間、た一九八一年三月、バブル時代、慶長期、周年、戦後五十年、 戦後五〇年、戦後50年、在局時代、秀吉の時代、新シーズン、大会前、時代、 日、没後60年、失跡前日、失跡翌日、発売十年目 ※「周年」のような相対表現については、説明の名詞句は入れない。 会社創立三十周年, 戦後五十年 失踪前日国際児童年十周年 ※ 「時代」のようなニックネーム的時間表現では、その表現だけで客観的に判断できる もののみに限る。個人的は表現は入れない。 大正時代 旧石器時代関根名人時代 ソ連時代、新しい時代、冷戦時代、マルチメディア時代、僕の中学時代、 野茂選手の新日鉄境時代、彼の全盛期、さみしい時代、バブル時代 TIME = 午前中、試合前夜、優勝戦前夜 ※ 相対表現については、説明の名詞句は入れない。 優勝戦 MONEY = grep -v "円" MONEY | grep -v "ドル" | grep -v "ルーブル" \ | grep -v "バーツ" | grep -v "ペソ" | grep -v "ルピー" 表記上には単位がなくとも金額の事であるのは明白なものもタグ付け 五千万 PERCENT = grep -v "%" PERCENT | grep -v "倍" | grep -v "分の" \ | grep -v "割" | grep -v "" 半 ※ 「半」 以下のような物は明確な割合表現ではないとし、タグ付けしない。 大半、半ば、前半、後半、半透明、半月、下半身、半壊、半焼 以下のような物は明確な割合表現とし、タグ付けする。 5時間, 四半世紀、 過数、北球 004: 接辞等のキーワードによって漏れを検索 ?を数個解決 ORG = リーグ、軍、大学、銀行、航空、病院、市場、新聞、通信、委員会、 協会、会社、署、県警、都警、府警、道警、党、部隊、省、庁、局、 本部、支部、支局、高校、中学、小学、幼稚園、地検、裁判所、最高裁、高裁、地裁 美術館、博物館、協会、教会、連合、口 東京為替市場東京株式市場 大リーグJリーグ ドゥダエフ政権部隊チェチェン側部隊ロシア軍部隊チェコ憲兵部隊インドネシア治安部隊 日本支部 渋谷駅東口、東京駅八重州関西国際空港国際線南ウイング LOC = JR、博物館、美術館、空港、国道、県道、駅、和、邦、日本、米国 米、英国、英、韓国、韓、中国、日米、日中、日韓、日英、日仏、台湾、香港、インド カナダ、ドイツ、フランス、イタリア、スイス、オーストラリア、ニュージーランド 東京、横浜、川崎、静岡、名古屋、京都、大阪、神戸、岡山、広島、福岡、博多、長崎 熊本、大分、鹿児島、沖縄、宇都宮、福島、仙台、宮城、盛岡、山形、秋田、北海道、札幌、 関東、関西、東北、九州、東海、関空 駅名の前に会社名、路線名が就いている時には合せてタグする PERSON = さん、ちゃん、君、様、氏 村山、小沢、小渕、橋本、石原、武村、久保、山花、伊東、海部 渡辺、鈴木、高橋、中村、山田、山本、山下、田中、佐藤、斉藤、関根、 クリントン、ギングリッチ、ドール、エリツィン、ドゥダエフ、コワリョフ、シトロン ARTIFACT = 法、憲、(法案)、条約、協定、賞、案、計画、論 講演名、番組名も含める。 単独に述べられている「大賞」「最優秀賞」はOPTIONAL (総務部との関連) 賞名は、単独でも固有の物である事が分るようなもののみをタグ付けする。 「計画」、「論」、「説」はなかなか難しい。。 DATE = 年、月、日、 今年、今月、今日、来年、来月、明日、昨年、去年、先月、昨月、昨日、前日、前年、前月 以内、以降、年頭、新年、年末、年始、年初、年明け、正月 両日、当日、翌日、千秋楽、最終日、日目 相対表現の場合、概略表現(など、くらい),助詞等が中に入ってしまう事もある。 二十年くらいも前数年前数年後 先月初めころ、 時間の長さを利用した相対表現と「ぶり」「以内」の合成は時間表現とはしない。 ※20年ぶり、三年以内、数日中、今年中 現在、最近という漠然とした表現にはタグを付けない。 今日(こんにち)は今日(きょう)との判別が困難なため、すべてタグ付けをする。 ただし、「今日」でも、比喩的な表現や繰り返しなどのような表現にはタグを付けない。 ※今日あって明日はどうなるかせつな的な日を送っていた。 今年は「選択の年」。の「選択の年」は、その年に振られたニックネームと いうよりも、今年の説明であり、「彼女は綺麗な女」の女同様、説明の表現と取れる。 「年」という単語の多義といっていいだろう。 TIME = 時、分、秒 午前、午後、正午、深夜、未明、朝、夕、分後、分前 サッカーの試合などにおけるTIMEの時間表現もタグ付けする。 後半。その、ボールはゴール内にあった。 MONEY = 円、銭、ドル、ウォン、ルーブル、フラン、バーツ、ペソ、マルク、ポンド、$ 切ると単位が消えてしまうような範囲表現は一緒にひとつの範囲表現とする。 ※四万から七万バーツ PERCENT = %、パーセント、割、分の 005: 文章中からタグの付いた部分だけを削除し、残った部分を調べる。 ------------------------- while(<>){ s#[^<]*#{ORG}#g; s#[^<]*#{PERSON}#g; s#[^<]*#{LOC}#g; s#[^<]*#{ART}#g; s#[^<]*#{DATE}#g; s##{TIME}#g; s#[^<]*#{MONEY}#g; s#[^<]*#{PERCENT}#g; print $_; } ------------------------- 「本因坊」はすべて人名(襲名する名前)とする。 本因坊位、本因坊戦、名誉本因坊 講演、講座名もARTIFACT 展覧会はイベントであり、ARTIFACTは付けない 006: 要注意単語、接辞等を(再)確認 ?のつくものを解決(IREX−MLに助けられる) 戦前、戦中、戦後、西側、東側、東西、南北、五分五分、在阪、在京、から、両、 蔵相、外相、数、今期、今季、来期、来季、恒例、国会、首都圏、地区、先日 プロ野球、言語(OPTIONALである)、語、字、戦後、ヶ月、以内、 教、湾岸、内閣、安保、イスラム、オウム、創価学会、ユダヤ、西側 007: 複数種類のタグが付いている単語を確認 OPTIONALのタグが付いている物を確認 時間表現における概略表現が定義されていない。 午前7時前、午前7時すぎ、午前7時ころ、の「前」「すぎ」「ころ」は入れるか? いれない事にする。 008: 各NEのリスト(OPTIONALも含む)から間違いを探し、訂正 ARTIFACT: すべての例をチェック 講演名、講座名はARTIFACTでなく、OPTIONALにする。 (番組名はARTIFACTのまま) 物と事のグラデュエーション(<物>、本の題名、ビデオの題名、映画の題名、テレビの題名 講演の題名、集会の題名、抗争の題名、戦争の題名、<事>) 一般に著作権を認められるかどうか。。。 DATE: リストを見て怪しい物、間違っている物を確認 暮れ、創業百年、本日 LOCATION: リストを見て怪しい物、間違っている物を確認 ?ブラディーマリー MONEY: リストを見て怪しい物、間違っている物を確認 怪しい物は発見されず OPTIONAL: すべての例をチェック 計画の語尾がつくものでいくつかをOPTIONALにした。(規制緩和五ヶ年計画) ORGANIZATION: リストを見て怪しい物、間違っている物を確認 松下グループ、三菱グループはそれでいいのか? (江里口さんとのメイル確認) -> 上記のようなグループもOGANIZATIONにした。 (lDRYRUN正解と、ちょっと矛盾) その他いくつか変更 PERCENT: リストを見て怪しい物、間違っている物を確認 怪しい物は発見されず PERSON: リストを見て怪しい物、間違っている物を確認 TIME: リストを見て怪しい物、間違っている物を確認 怪しい物は発見されず 009: teaを2回走らせ、削除された文字がないか、挿入された文字がないか確認 タグにスペルミスがないか確認。(OPTIONALの付加情報は確認できない) All_008.sgml --(tea -e)--> All_008.idx --+--(tea -a)--> All_009.sgml Original Text --| diff All_008.sgml All_009.sgml 2文字の削除を発見 タグのスペルエラーはない模様 010: IBSデータとの比較 * 論文の題名はARTIFACTとする。 * 「大統領」「首相」のように、普通にはそれだけでは役職を指すような名称には OPTIONAL 3を適応しない。「天皇」「ローマ法皇」のように普通にそれが人を指す 場合に限る。 * 「首都」というのは、照応とみなす。 * 「イスラム」は地名とはしない。 * 劇、映画上の人名などにも人名としてタグを付ける。 * 地名は、建物までの単位とし、階の名前や、その中の特殊な場所「正面玄関」「南口」 「南ウィング」のような細部までは地名とはしない。 * 普通名詞的表現にはタグ付けしない。「民主リベラル新党」 * 主義、制度はタグ付けしない。「社会主義」「中選挙区制」 * 地名に続く「沖」「沿岸」のような表現は地名に含まない。「宮城県はるか沖」 * 「過激派」「保守系会派」「急進派」「セルビア人勢力」のような表現は固有の対象を 指していないのでタグ付けしない。 * 「朝刊」「夕刊」の「朝」「夕」は一般的な表現であり時間表現とはしない。 * 「諸国」のような表現は漠然としており、含めない。「東欧諸国」 * 「南部」「地方」といった表現は地名に含まれないため、以下のようになる。 「ロシア南部チェチェン共和国」 * 「{国名}国籍」の場合には{国名}だけを地名にする。(国は入れない。) 「日本国籍」「カナダ国籍」「国籍」 「国籍」 * 新聞名(毎日新聞、ニューヨークタイムズ)は、「報じる」「インタビューした」というような 動作の主体となっている場合にはORGANIZATIONとし、「に載っている」というような場合には ARTIFACTとする。 * サッカー、ラグビーでの「前半」「後半」の「半」はPERCENTとはしない。 「半面」「半強制的」「四十代前半」の半、「人一倍」の「一倍」もPERCENTとはしない。 * 「新春恒例」、「毎年新年」という場合の「新春」「新年」はDATEではない。 * 時間表現(夏)にも、季節としての「夏(夏は暑い)」と特定の時期を指した「夏(1999年夏)」 があり、前者は時間表現とはしない。後者は時間表現である。 011: 各NEのリスト(OPTIONALも含む)から間違いを探し、訂正 2つの簡単なバグを発見。 戦後50年をすべてOPTIONALにする。(ただし、戦後五十年間) 012: teaを2回走らせ、削除された文字がないか、挿入された文字がないか確認 タグにスペルミスがないか確認。(OPTIONALの付加情報は確認できない) All_011.sgml --(tea -e)--> All_011.idx --+--(tea -a)--> All_012.sgml Original Text --| diff All_011.sgml All_012.sgml