白文に自動で「点」を打つ、というプロジェクトを立ち上げてみたものの、かなり無茶であることが徐々にわかってきた。 再び、中間まとめをしておこうと思う。
「也」などの末字を使って「点」を打つ方法はかなり成績がよかった。 これに対し、「但」や「況」などの頭字を使って「点」を打つ方法は、やや精度が落ちる。 また、2-gramを使う方法はヒット率が低く、イマイチ「点」が打てなかった。
予想外に良い成績をおさめたのは、韻を使って8・10・12字の繰り返しを発見する方法で、韻文の部分はほぼ確実に「点」を捉えることができた。 ただ、これはあくまで韻文に限定されたものであって、散文については連続した同韻は大した意味を持たなかった。
次に、訓読に用いられる返り点から、漢文の構造を抽出するという方法を考えた。 形態素解析エンジン『MeCab』を用いて、漢文の形態素解析をおこなうことを試みたが、いくつか問題が立ちはだかった。