「古典中国語コーパスの応用研究」共同研究班ログ
2023年4月21日
過去の研究班
の成果(抜粋)
MeCab-Kanbun
GitLabリポジトリ
品詞分類
漢文コーパス簡易検索
UD-Kanbun
ud-kanbunリンク検索
GitLabリポジトリ
『孟子』
『論語』
『禮記』
『十八史略』
『楚辭』
『佛説阿彌陀經』
『金剛般若波羅蜜經』
『維摩詰所説經』
『摩訶般若波羅蜜大明呪經』
『唐詩三百首』
『日本漢詩』
上
下
『戰國策』
[kanripo順]
[新釈順]
『世説新語』
UD_Classical_Chinese-Kyoto
SuPar-Kanbun
[Google Colaboratory]
RoBERTa-Classical-Chinese
baseモデル
roberta-classical-chinese-base-char
roberta-classical-chinese-base-sentence-segmentation
roberta-classical-chinese-base-upos
roberta-classical-chinese-base-ud-head
roberta-classical-chinese-base-ud-goeswith
largeモデル
roberta-classical-chinese-large-char
roberta-classical-chinese-large-sentence-segmentation
roberta-classical-chinese-large-upos
roberta-classical-chinese-large-ud-head
roberta-classical-chinese-large-ud-goeswith
科学研究費基盤研究(B)『古典漢文依存文法コーパスから日本漢文コーパスへの展開』
学際大規模情報基盤共同利用・共同研究拠点(JHPCN)
『単語間に区切りのない書写言語における係り受け解析エンジンの開発』
言語処理学会第29回年次大会
『言語モデルを用いた漢文の返り点付与と書き下し文生成』
『形態論情報付き日本語Universal Dependencies』
『沖縄語のUniversal Dependenciesツリーバンクコーパスの構築』
『UD Japanese-CEJC とその評価』
ICBIR 2023 (LDA 2023)
Pali Tipitaka
2023年5月12日
ICBIR 2023 (LDA 2023) program
『Sequence-Labeling RoBERTa Model for Dependency-Parsing in Classical Chinese and Its Application to Vietnamese and Thai』
第132回 人文科学とコンピュータ研究発表会
EvaHan2023
『古事記』
と
『日本書紀』
『家庭指南』
と
アイヌ語訳『五倫名義解』
日本漢文文献目録データベース
『SikuGPT: A Generative Pre-trained Model for Intelligent Information Processing of Ancient Texts from the Perspective of Digital Humanities』
[GitHub]
『Yu Sheng: Human-in-Loop Classical Chinese Poetry Generation System』
『Generation of Chinese classical poetry based on pretrained model』
『Token-Free Cross-Lingual Named Entity Recognition for Classical Chinese』
[C-CLUE]
『Multilingual BERT Based Word Alignment By Incorporating Common Chinese Characters』
2023年6月2日
ICBIR 2023 (LDA 2023) program
『Corpus Development for Pronoun Substitute and Address Term Study』
『Sequence-Labeling RoBERTa Model for Dependency-Parsing in Classical Chinese and Its Application to Vietnamese and Thai』
『Customs Tariff Classification of Organic Chemicals with Data Mining Techniques』
『Consideration of Language Learning Service with Visualized Vocabulary Map Derived from WordNet』
第132回 人文科学とコンピュータ研究発表会
日本語学会 2023年度春季大会
情報知識学会 第31回年次大会
ACL 2023
『Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models』
[demo]
『WYWEB: A NLP Evaluation Benchmark For Classical Chinese』
Evidence-based Linguistics Workshop 2023
『古事記』
と
『日本書紀』
「天地初発」
古事記ビューアー
『近世漢学言語論と日本語学史』
2023年6月16日
『日本靈異記』
生之死之捕雷栖軽之墓
『遍照發揮性靈集』
「喜雨歌」
生之死之笑而哭
「生れ之き死に之て笑て而哭す」
係り受け解析
『法華玄義』
生能生之
アイヌ語訳『五倫名義解』
「父子有親」並行コーパス(ゲラ稿)
JHPCN第15回シンポジウム
2023年7月21日
『日本書紀』UDエディタ
DH 2023
Session LP-F1D: Machine Learning
ACL 2023
『From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding』
『What is the best recipe for character-level encoder-only modelling?』
『Advancing Multi-Criteria Chinese Word Segmentation Through Criterion Classification and Denoising』
『Enhancing Ancient Chinese Understanding with Derived Noisy Syntax Trees』
『WYWEB: A NLP Evaluation Benchmark For Classical Chinese』
[issue]
『Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models』
第23回文法研究ワークショップ
『東洋学へのコンピュータ利用』第36回研究セミナー
未踏科学研究ユニット報告会2023
SS研HPCフォーラム2023
Evidence-based Linguistics Workshop 2023
第133回人文科学とコンピュータ研究発表会
日本中国語学会第73回全国大会
じんもんこん:-)2023
日本漢字学会第6回研究大会
第十三屆漢字與漢字教育國際研討會
2023年9月8日
『日本書紀』
[wikisource]
[UDエディタ]
「若以惡心射者」は「射」―mark→「者」(p,助詞,提示)
「因奉教之」の「之」は「p,助詞,句末」だろうか?
「火火出見尊乃歌之」の「之」はPRONでは無さそう
CCL2023古籍命名実体識別評測
[ACL]
GujiRoBERTa_jian_fan
[GitHub]
[arXiv]
2023年9月22日
じんもんこん:-)2023
「『日本書紀』Universal Dependencies への挑戦」abstract
『日本書紀』の「之」と「者」
[神代上]
[神代下]
動詞の直後の「之」はとにかくPRONとする、リンクはまずobjを考えて、可能ならexplにする。
AI等の活用を推進する研究データエコシステム構築事業シンポジウム2023
「形態素解析・係り受け解析AIにおけるデータ管理とデモ環境の統合」poster
秦檍磨(村上島之允)『蝦夷島奇觀』(東京国立博物館QB-10015)の
イヨマンテの祝詞
[アイヌ語]
[漢訳]
2023年10月6日
『日本書紀』
の「之」と「者」
[繼體天皇]
「荒籠之謂」は「之」←obj−「謂」
「遣罷歸之」は「つかわしてまかりかえさしむ」なので「罷」←advmod−「歸」−obj→「之」あたりか
第133回人文科学とコンピュータ研究発表会
『KH CoderおよびChineseTextProjectの分析ツールを用いた漢文テキストマイニング−北魏墓誌銘辞を実例として』
『古漢字情報をコンピュータで扱うために』
ALT 2023: Ancient Language Translation Workshop
[ACL Proceedings]
ICBIR 2024
2023年10月20日
DHSympo2023
AI社会の現在
『日本書紀』
の「之」と「者」
[齊明天皇]
じんもんこん:-)2023
「『日本書紀』Universal Dependencies への挑戦」ゲラ
NLPCC 2023
RAC-BERT: Character Radical Enhanced BERT for Ancient Chinese
rT5: A Retrieval-Augmented Pre-trained Model for Ancient Chinese Entity Description Generation
2023年11月17日
Universal Dependencies 2.13
[短報]
DHSympo2023
『東アジア人文情報学から人文情報学イノベーションへ』
AI社会の現在
じんもんこん:-)2023
「『日本書紀』Universal Dependencies への挑戦」
日本漢字学会第6回研究大会
「『蝦夷島奇觀』における漢訳アイヌ語について」
Unigramトークナイザの最大トークン長と最大語彙数は係り受け解析に影響するのか
タイ語UD_Thai-Corpora [
DeBERTa
]
2023年12月1日
じんもんこん:-)2023
『日本書紀』
の「之」と「者」
[景行天皇 成務天皇]
「久之不堪」は
『日本書紀』の「之」に関する調査研究報告
p.98参照
『日本書紀』における非漢文
「彌圖」「阿那而惠夜」「布刀磨爾」
「阿妹奈屢夜乙登多奈婆多廼汚奈餓勢屢多磨廼彌素磨屢廼阿奈陀磨波夜彌多爾輔柁和柁邏須阿泥素企多伽避顧禰」
「憶企都茂播陛爾播譽戻耐母佐禰耐據茂阿黨播怒介茂譽播磨都智耐理譽」
「飫企都鄧利軻茂豆句志磨爾和我謂禰志伊茂播和素邏珥譽能據鄧馭㔁母」
「摩比邏矩都能倶例豆例於能幣陀乎邏賦倶能理歌理鵝」
NLP4DH & IWCLUL 2023
『Character-Based Thai Word Segmentation with Multiple Attentions』
[RANLP 2021]
『Character cluster based Thai information retrieval』
『タイ語古典テキストの自動分かち書きについて』
2024年1月19日
『東洋学へのコンピュータ利用』第37回研究セミナー
2024年2月2日
『日本書紀』
の「之」と「者」
[崇神天皇]
[垂仁天皇]
[景行天皇 成務天皇]
[仲哀天皇]
[神功皇后]
第134回人文科学とコンピュータ研究発表会
言語処理学会第30回年次大会
東アジア文化交渉学会・第16回年次大会
MWE-UD 2024
ACL2024
2024年4月19日
『日本書紀』
の「之」と「者」
[應神天皇]
「來」→parataxis→「朝」→obj→「之」
「東南之」の「之」はナゾ
[安閑天皇]
[欽明天皇]
「受之天皇」は「受之父母」を参考にして、obj→「之」とiobj→「天皇」
『日本書紀』における非漢文
「于儾能多伽機珥辭藝和奈陂蘆和餓末菟夜辭藝破佐夜羅孺伊殊區波辭區旎羅佐夜離固奈瀰餓那居波佐麼多智曾麼能未廼那鷄句塢居氣辭被惠禰宇破奈利餓那居波佐麼伊智佐介幾未廼於朋鷄句塢居氣儾被惠禰」
言語処理学会第30回年次大会
『日本語Universal Dependenciesの通時的転移可能性について』
『複数短単位版「分類語彙表番号-UniDic」対応表の整備と公開』
『Swallowコーパス: 日本語大規模ウェブコーパス』
『関西方言を対象とした形態素解析用辞書の開発』
『日本語→琉球諸語翻訳モデルの構築に向けて』
『文字系列情報による性能への影響からニューラルモデルが有する言語的な傾向を見出せるか』
SIGTYP 2024 Shared Task
[
proceedings
]
2024年5月17日
『日本書紀』
の「之」と「者」
[敏達天皇]
『狄島夜話記』 [
翻刻
]
「因崇之曰久畄部加茂伊」
日本語GPT系モデルでのFew-Shot品詞付与
Swallow-7b-plus-hf
Swallow-MS-7b-v0.1
Fugaku-LLM-13B
Universal Dependencies 2.14
[
短報
]
第135回人文科学とコンピュータ研究発表会
LREC-COLING 2024
世界漢字學會第十屆年會
EMNLP 2024
DADH 2024
2024年6月7日
LT4HALA@LREC-COLING 2024
[
proceedings
]
XunziALLM
LREC-COLING 2024
『Humanistic Buddhism Corpus: A Challenging Domain-Specific Dataset of English Translations for Classical and Modern Chinese』
『An Unsupervised Framework for Adaptive Context-aware Simplified-Traditional Chinese Character Conversion』
『First Steps Towards the Integration of Resources on Historical Glossing Traditions in the History of Chinese: A Collection of Standardized Fǎnqiè Spellings from the Guǎngyùn』
『CHisIEC: An Information Extraction Corpus for Ancient Chinese History』
『Few-Shot Semantic Dependency Parsing via Graph Contrastive Learning』
COLING 2025
『AMPD: an Analects-Mandarin parallel dataset for bidirectional translation』
『A Novel Masking Model for Buddhist Literature Understanding by Using Generative Adversarial Networks』
『基于片段抽取原型網絡的古籍文本断句標点提示学習方法』
『基于提示学習和全局指針網絡的中文古籍実体関係聯合抽取方法』
『単語分散表現を用いた古事記における単語の意味の揺らぎ解析』
2024年6月21日
『日本書紀』
の「之」と「者」と「丹」
[仁徳天皇]
[履中天皇 反正天皇]
「鳥往來羽田之汝妹者、羽狹丹葬立往。亦曰、狹名來田蔣津之命、羽狹丹葬立往也」
「丹」には「助詞-格助詞」のXPOSと、lang=ojpをMISCに付ける
「丹」へのcaseは、case:ojpに拡張すべきか?
古典中国語Qwen系モデルでのFew-Shot品詞付与
XunziALLM (Xunzi-Qwen-7B)
Xunzi-Qwen1.5-4B・7B・14B
日本語GPT系モデルでのFew-Shot品詞付与
国語研短単位UD_Japanese-GSDでの定量評価
国語研長単位UD_Japanese-GSDLUWでの定量評価
第260回IPSJ-NL研究発表会
JHPCN第16回シンポジウム
第136回人文科学とコンピュータ研究発表会
JADH 2024
Evidence-based Linguistics Workshop 2024
2024年7月5日
『日本書紀』
の「之」と「者」
[允恭天皇 安康天皇]
「希有之幸」は
『日本書紀』の「之」に関する調査研究報告
p.100参照
「差須臾之」は
『日本書紀』の「之」に関する調査研究報告
p.105参照
第260回IPSJ-NL研究発表会
『大規模言語モデル評価のための四字熟語データセットの作成』
『文字言語モデルからの単語言語モデルの教師なし合成』
セミマルコフCRF自己符号化器による教師なし単語分割
古典中国語生成AIモデルの系列ラベリングによるUPOS品詞付与
Xunzi-Qwen1.5-4B-upos
[
demo
]
Xunzi-Qwen1.5-7B-upos
単文字日本語GPT2の系列ラベリングによるUPOS品詞付与
gpt2-small-japanese-upos
[
demo
]
gpt2-medium-japanese-upos
gpt2-large-japanese-upos
日本語Swallowの系列ラベリングによるUPOS品詞付与
Swallow-MS-7b-char-upos
[
demo
]
Swallow-7b-plus-char-upos
2024年7月19日
JHPCN第16回シンポジウム
単語間に区切りのない書写言語における係り受け解析エンジンの開発
deberta-base-thai-upos
RakutenAI-7B-upos
[補足]
大規模な日本語モデル構築・共有のためのプラットフォームの形成
roberta-large-japanese-char-wwm
gpt2-xl-japanese
deberta-v2-base-japanese-char-wwm
deberta-v2-base-japanese
deberta-v3-base-japanese
[試用レポート]
大規模拡散モデルを用いたテキスト生成
『東洋学へのコンピュータ利用』第38回研究セミナー
第136回人文科学とコンピュータ研究発表会
第2回DH若手の会
デジタル・ヒューマニティーズ(DH)組織ネットワーキング協議会
CCL2024
Classical Chinese Event Detection
[github]
『C³Bench: A Comprehensive Classical Chinese Understanding Benchmark for Large Language Models』
『TongGu: Mastering Classical Chinese Understanding with Knowledge-Grounded Large Language Models』
『Deciphering Oracle Bone Language with Diffusion Models』
『Thai Universal Dependency Treebank』
[github]
2024年9月6日
『日本書紀』
の「之」と「者」
[雄略天皇]
[清寧天皇 顯宗天皇 仁賢天皇]
[用明天皇 崇峻天皇]
国立国語研究所2024年度共同利用セミナー
JADH 2024
字典・詞典の研究―回顧と展望―
Evidence-based Linguistics Workshop 2024
研究データエコシステム構築事業シンポジウム2024
DADH 2024
じんもんこん:-)2024
2024年10月4日
『日本書紀』
の「之」と「者」
推古天皇
舒明天皇
皇極天皇
『日本書紀』における非漢文
「岐神此云布那斗能加微」
「鳥往來羽田之汝妹者羽狹丹葬立往」
「久須尼自利」
[試案]
研究データエコシステム構築事業シンポジウム2024
「形態素解析・係り受け解析AIにおけるデータ管理とデモ環境の統合」
日本漢字学会第7回研究大会
2024年10月18日
じんもんこん:-)2024
「GPT系言語モデルによる国語研長単位係り受け解析」ゲラ
『Semantic-enhanced graph neural network for named entity recognition in ancient Chinese books』
『A Feature-Based Approach to Annotate the Syntax of Ancient Chinese』
[
slide
]
『Ancient Chinese Glyph Identification Powered by Radical Semantics』
『A cross-temporal contrastive disentangled model for ancient Chinese understanding』
2024年11月15日
『日本書紀』
の「之」と「者」
孝徳天皇
天智天皇
じんもんこん:-)2024
「GPT系言語モデルによる国語研長単位係り受け解析」ゲラ
日本漢字学会第7回研究大会
「『日本書紀』におけるコードスイッチングについて」ゲラ
『Exploring the Capabilities of ChatGPT in Ancient Chinese Translation and Person Name Recognition』
「古典中国語のコーパスの研究」共同研究班(2020-2023)ログ