四書を学んだMeCab+UDPipeはセンター試験の漢文を読めるのか
安岡孝一:
四書を学んだMeCab+UDPipeはセンター試験の漢文を読めるのか,
東洋学へのコンピュータ利用, 第30回研究セミナー(2019年3月8日), pp.3-110.
- 孟子
[GitLab]
[Visualizer]
- 論語
[GitLab]
[Visualizer]
- 大學
[GitLab]
[Visualizer]
- 中庸
[GitLab]
[Visualizerは「大學」を参照]
- MeCab用モデル
mecab-fourbooks.tar.gz
% tar xvzof mecab-fourbooks.tar.gz
% mecab-dict-index -f utf-8 -t utf-8 -d mecab-fourbooks -o mecab-fourbooks
% echo '嗚呼哀哉有兄子曰甫' | mecab -d mecab-fourbooks
% cd mecab-fourbooks
% echo '嗚呼哀哉有兄子曰甫' | ./mecabUD.sh
- UDPipe用モデル
ud-fourbooks.udpipe
% echo '嗚呼哀哉有兄子曰甫' | udpipe --tokenizer=joint_with_parsing --tag --parse ud-fourbooks.udpipe
- StanfordNLP用モデル
lzh_fourbooks_models.zip
% unzip lzh_fourbooks_models.zip
% mv lzh_fourbooks_models $HOME/stanfordnlp_resources/.
% python3
>>> import stanfordnlp
>>> from stanfordnlp.models.common import conll
>>> lzh=stanfordnlp.Pipeline(lang="lzh",treebank="lzh_fourbooks")
>>> u=lzh("嗚呼哀哉有兄子曰甫")
>>> print(u.conll_file.conll_as_string())
- センター試験2019〜2015年正解CoNLL-U
center2019-2015gold.tar.gz