IREX − NEトライアル 1998年7月13日 NEの課題を理解しやすくする為にトライアルのデータを作成しました。 以下の作業を行なってNEの課題を理解してください。 ========で狭んだ部分がコマンドです。 (IREX_DIR)はIREXのデータをインストールしたトップディレクトリを、 UNIX>はUNIXのプロンプトを意味します。 1.ツール(tea)のコンパイル (IREX_DIR)/TOOLS/teaに移動して、makeを行ってください。 ただし、SunOS, Solaris版はすでに作成してあります。 tea_sunos,tea_solarisをご利用ください。 ========= UNIX> cd (IREX_DIR)/TOOLS/tea; UNIX> cp tea_sunos tea または UNIX> make; ========= 2.必要ファイルのコピー データファイルを消さないように、ファイルをコピーして作業します。 再度、トライアルを行なう際には、ここから始めることをお薦めします。 ======== UNIX> cd (IREX_DIR)/NE_TRIAL UNIX> cp DATA/NEtrial.txt work1 UNIX> cp DATA/NEtrial_gold.idx work1 UNIX> cp DATA/idx_head.idx work1/NEtrial.idx UNIX> cp DATA/NEtrial2.lst work2 UNIX> cp DATA/idx_head.idx work2/NEtrial2.idx ======== 3.固有表現のタグ付け(work1) work1に写したNEtrial.txtを対象に(IREX_DIR)/NE_DEFにある定義に従い 固有表現のタグ付けを行ないます。作業した後のサンプルは DATA/NEtrial_gold.txtにあります。 この作業は、(IREX_DIR)/TOOLS/pntagにあるpntag.elをロードし (M-x load-file; (IREX_DIR)/TOOLS/pntag/pntag.el)、pntag-modeにして (M-x pntag-mode) ツールを使うと便利です。 タグ付けしたい範囲の最初にマークをし(C-Space)、後の所で、C-x C-x 等を行なうと、その範囲を固有表現としたタグが付与されます。 詳しくは、pntag.elのソースを見てください。(20行もありませんし、 lispを知らない人でも、なんらかのプログラミング言語を知っている方なら 理解できると思います。)一応、以下にキーのマッピングです。 C-x C-x organization C-x C-b person C-x C-v location C-x C-a artifact C-x C-d date C-x C-t time C-x C-e money C-x C-r percent ======== cd (IREX_DIR)/NE_TRIAL/work1 (nemacs/mule + pntag.el)等を使ってタグ付け ======== その後、インデックスファイルを作成します。 ======== ../../TOOLS/tea/tea -e NEtrial.idx NEtrial.txt ======== このコマンドを走らせた後に、NEtrial.idxを見てください。 タグ付けされた文字列が、オフセットの情報等と共に列挙されている筈です。 スコアラーを走らせます。 ======== jperl ../../TOOLS/NEscorer/NEscorer.perl NEtrial_gold.idx NEtrial.idx ======== NEtrial.scrにスコアが、NEtrial.repにレポートが作成されます。御覧ください。 ちなみに、NEtrial.txtは架空の事実に基いて作成した文章です。 4.固有表現のタグ付け(work2) 実際の毎日新聞の記事にタグ付けします。 対象記事を作成します。毎日新聞94年版のCDROMを挿入し、以下によって SGMLフォーマットのデータを作ります。ただし、この作業によって作成される データの量は113Mと非常に大きいので、注意してください。 ======== cd (IREX_DIR)/MAINICHI nkf -e /cdrom/cdrom0/mai94.txt | jperl ../TOOLS/mai2sgml/mai2sgml.pl > mai94.sgml ======== 該当記事だけを抽出します。 ======== cd (IREX_DIR)/NE_TRIAL/work2 ../../TOOLS/tea/tea -a NEtrial2.lst ../../MAINICHI/mai94.sgml > NEtrial2.txt ======== 上記3にある方法と同様に固有表現のタグ付けをしてください。 その後の処理は3と同様です。正解ファイルはまだ作成しておりません。 定義の不完全さ、曖昧さが表出すると思います。それを議論のとっかかりと したいと思います。作られた、NEtrial2.idxを関根(sekine@cs.nyu.edu)まで お送りください。 ======== cd (IREX_DIR)/NE_TRIAL/work2 (nemacs/mule + pntag.el)等を使ってタグ付け ../../TOOLS/tea/tea -e NEtrial2.idx NEtrial2.txt mail sekine@cs.nyu.edu < NEtrial2.idx ========