roberta-classical-chinese-base-ud-goeswithの解析手法を他の言語に応用する

古典中国語(漢文)の句間係り受け解析用に開発したroberta-classical-chinese-base-ud-goeswithだが、色々とチューニングしてみた結果、単体の係り受け解析モデルとしても、かなり高性能となった。 これに気を良くして、この係り受け解析手法(系列ラベリングによる隣接行列logitsの生成)を、他の言語に応用することを考えてみた。ただ、この手法ではLEMMAの生成が難しいため、FORMとLEMMAがほぼ同一とみなせる言語(つまりは孤立語など)に、まずは挑戦してみることにした。

現代中国語

ベトナム語

タイ語

トークン長を決めかねたので、文字トークンモデル・音節トークンモデルと、その中間的なモデル(sentencepieceによる最大4文字トークン)を作ってみた。