CRL固有表現データ 1999/2/14 概要 ---- 毎日新聞95年1月1日から10日までの全記事,約1万文に対して、固有表現を タグ付けしたデータです。固有表現はIREXにおいて定義されている物であ り、実際にこのデータを作成したIREX NE定義ファイルのバージョンは 990214です。IREXについては、 http://cs.nyu.edu/cs/projects/proteus/irex を参照してください。 注意点 ------ 配布するのは固有表現の付加情報だけで,もとの毎日新聞データは含まれ ていません.コーパス本来の形に変換するには毎日新聞95年版CD-ROMが必 要です.毎日新聞CD-ROMの入手方法については言語処理学会のホームペー ジ: http://www.kyutech.ac.jp/nlp/ に情報があります. 配布リソースの構成 ------------------ README : このファイル auto_conv : データ変換プログラム dat/ : CRL_NE_DATA.idxという名のファイルがあり,auto_conv によってCRL_NE_DATA.sgmlというファイルが作成される。 doc/ : 種々のドキュメントがある src/ : データ変換プログラムがある データの変換 ------------ 配布するのは固有表現情報だけで,もとの毎日新聞データは含ま れていません.コーパス本来の形に変換するには ・毎日新聞95年版CD-ROM ・nkf (漢字コード変換プログラム) ・jperl ver5 ・IREX teaプログラム が必要です.変換手順は以下のとおりです. ・毎日新聞95年版CD-ROMをマウントする ・マウントしたディレクトリの位置、IREXリソースファイルの トップディレクトリをauto_convで設定する (変数 CDROM_DIR、IREX_ROOT) ・jperl(ver5)のパスが /usr/local/bin/jperl でない場合は,src の下の各プログラムファイルの先頭行の指定を変更する ・配布のトップディレクトリ(このREADMEのある場所)でauto_convを 実行する これらはUNIXシステム上での変換を想定しています.他のシステムの場合の 問題点や解決策がありましたら,情報をお寄せ下さい. 謝辞 ---- ファイル変換プログラムは京都大学の黒橋さんの御好意により、京都大学 テキストコーパスの配布リソースに含まれているプログラムを流用させて いただいております。記事や文章の選択は京都大学テキストコーパスに 従っています。 質問、意見 ---------- このデータに関する質問、意見は以下にお願いします。 井佐原均 isahara@crl.go.jp 関根聡 sekine@cs.nyu.edu