自動「点」打ちプロジェクト小まとめ(2007-07-17更新版)

安岡孝一

白文に自動で「点」を打つ、というプロジェクトを立ち上げてみたものの、かなり無茶であることが徐々にわかってきた。 再び、中間まとめをしておこうと思う。

「也」などの末字を使って「点」を打つ方法はかなり成績がよかった。 これに対し、「但」や「況」などの頭字を使って「点」を打つ方法は、やや精度が落ちる。 また、2-gramを使う方法はヒット率が低く、イマイチ「点」が打てなかった。

予想外に良い成績をおさめたのは、韻を使って8・10・12字の繰り返しを発見する方法で、韻文の部分はほぼ確実に「点」を捉えることができた。 ただ、これはあくまで韻文に限定されたものであって、散文については連続した同韻は大した意味を持たなかった。

次に、訓読に用いられる返り点から、漢文の構造を抽出するという方法を考えた。 形態素解析エンジン『MeCab』を用いて、漢文の形態素解析をおこなうことを試みたが、いくつか問題が立ちはだかった。

  1. 品詞辞書をどうやって準備するのか
  2. スキーマをどうやって与えるのか
  3. 形態素解析できたとして、そこからどうやって「点」を打つことにつなげるのか
1に関しては、日本語用の辞書から、漢字の連続であるものを抜き出して、漢文品詞辞書とし、「将」「不」「無」「非」「自」「於」などを追加することで、ある程度のものは得られた。 2に関しては、返り点サンプルから、返り点で戻ってくる文字に対して「レ点付き」であることを示すスキーマをデッチあげたが、必ずしもスキーマが効かず、うまくいってない。 3に関しては、五里霧中である。やはり、何らかの方法で構造を調べなければならないが、皆目、検討がつかない。