「古典中国語のコーパスの研究」共同研究班ログ
- 2020年4月10日
過去の研究班の成果(抜粋)
- MeCab-Kanbun
- UD-Kanbun
- その他のpython module
- 2020年4月24日
研究班活動方針
UDPipe Visualizer(简体・繁體・文言ミックス版)
『複単語表現を考慮した依存構造コーパスの構築と解析』
- 2020年5月8日
UD-Chinese(简体・繁體・文言ミックス係り受け解析ツール)
- Google Colaboratoryで
简体
繁體
文言
を比較
- うまくいかない例
「是不是」「我也不是医生」「我妻子也会同意」
『75 Languages, 1 Model: Parsing Universal Dependencies Universally』
『Universal Dependencies according to BERT: both more specific and more general』
- 2020年5月22日
Universal Dependencies 2.6
[statistics]
[validation]
『十八史略』
deplacy 21言語サポート
『Parser Training with Heterogeneous Treebanks』
『82 Treebanks, 34 Models: Universal Dependency Parsing with Multi-Treebank Models』
『pyBART: Evidence-based Syntactic Transformations for IE』
[公式サイト]
『漢文訓読と連文節』
『教科書から見る高等学校での「日本漢文」の扱いについて』
『Lispを用いた漢文の構文解析と返り点情報の作成』
- 2020年6月5日
『禮記』50巻UD化完了
Deep Universal Dependencies 2.6
浜島書店『最新国語便覧』(2020年2月5日印刷・発行)「漢文の基本」(pp.382-383)
『Distant Supervision for Relation Extraction without Labeled Data』
『Distant Supervision for Relation Extraction beyond the Sentence Boundary』
『Neural Relation Extraction within and across Sentence Boundaries』
- 2020年6月19日
Universal Dependencies Workshop 2020
『Global Relation Embedding for Relation Extraction』
『Universal Dependenciesに基づく多言語間テキスト意味類似性測定』
『Universal Semantic Parsing』
Global WordNet Assocation
- 2020年7月3日
JADH 2020
じんもんこん2020
開発中の解析ツール
『An Advanced Introduction to Semantics: A Meaning-Text Approach』
[Google]
[Amazon]
[紀伊國屋]
『A Short Guide to the Meaning-Text Approach』
『Collocations and Lexical Functions』
『Pairing Semantic and Communicative Structures for Paraphrase Generation in a Meaning-Text Linguistic Model』
- 2020年7月17日
人文科学とコンピュータ第124回研究会
『近代の歴史的資料を対象とした機械学習による文境界推定』
[修士論文]
『Transition-based Semantic Dependency Parsing with Pointer Networks』
Proceedings of the 16th International Conference on Parsing Technologies and the IWPT 2020 Shared Task on Parsing into Enhanced Universal Dependencies
Enhanced Universal Dependencies
- 2020年9月18日
『形態素解析部の付け替えによる近代日本語(旧字旧仮名)の係り受け解析』
『Dependentzia Unibertsalen eredura egokitutako euskarazko zuhaitz-bankua』
コンソールにおけるヘブライ語表示
- 2020年10月2日
CoNLL-U SVG Editor RtoL
[漢文版]
述語項構造解析の古典中国語(漢文)への適用
『The Case for Case』
日本語意味役割付与システム (ASA)
- 2020年10月16日
変体漢文のXPOSをUniDic品詞にする
kanripo版『十八史略』
『越南漢文小説叢刊』
『嶺南摭怪』
ホーチミン『獄中日記』
『歴代宝案』
『琉球國中山世鑑』
『中山世譜』
- 2020年11月6日
日本漢字学会第3回研究大会
じんもんこん:-)2020
『Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing?』
[preprint]
DiaParser
『東文易解』[前編・後編]
- 2020年11月20日
Universal Dependencies 2.7
アイヌ語UD
[ホテナオ(初版)]
[ホテナオ(切替版)]
[ホテナオ(片山版)]
変体漢文UDを製作すべきか
『Evolution of Part-of-Speech in Classical Chinese』
『PQAC-WN: constructing a wordnet for Pre-Qin ancient Chinese』
Chinese CogBank
『漢文の依存文法解析にもとづく自動訓読システム』
- 2020年12月4日
『Universal Dependencies v2: An Evergrowing Multilingual Treebank Collection』
峰岸明『変体漢文』第六章の例文
近世古文書用語検索システム
『日本史を学ぶための古文書・古記録訓読法』
『古記録学概論』
- 2020年12月18日
じんもんこん:-)2020
『日本語歴史コーパス』に対する文脈化単語埋め込み情報付与
『変体漢文の語順の派生過程』
[ゲラ稿]
「Chicken kills easily.」「This book sells well.」「This knife cuts well.」「Bureaucrats bribe easily.」のLFGは?
『平安時代語の副詞節の節連鎖構造について』
- 2021年1月15日
古典中国語WordNetを日本語WordNetの英語lemmaから作る
『基于继续训练的古汉语预训练语言模型』
[CCL2020]
[GitHub]
COMBO-pytorch
UniDic-COMBO
[ベンチマーク]
- 2021年3月5日
東洋学へのコンピュータ利用
- 2021年4月9日
研究班活動方針
『楚辭』
[GitLab]
[Kanripo]
『ISO DR-Core (ISO 24617-8): Core Concepts for the Annotation of Discourse Relations』
『単語の対応関係を利用したスパン候補の絞り込みによるキャッチコピーの対句構造解析』
松尾善弘『唐詩の解釈と鑑賞 & 平仄式と対句法』
『古事記』
[国史大系]
[Wikisource]
roberta-classical-chinese-large-char
情報処理学会論文誌「人文科学とコンピュータ」特集 論文募集
- 2021年4月23日
情報処理学会論文誌ゲラ稿チェック
松浦友久『中国詩歌原論』
『漢文訓読の初期条件(初稿)なぜ孤立語を膠着語に変換できたのか?』
[上]
[中]
[下]
gpt2-chinese-ancient
- 2021年5月7日
情報処理学会論文誌ゲラ稿チェック
王力『漢語詩律学』
『古漢語音韻データベース「諸家詩経韻読」の構築』
- 2021年5月21日
Universal Dependencies 2.8.1
Universal Dependencies 2.8
第3回 Universal Dependencies 公開研究会
SuPar-Kanbunで読む『法華経』譬喩品第三
- 伊藤丈『仏教漢文入門』(pp.73-91)
- 「舎利弗」「菩薩」「如來」「世尊」「方便」「梵志」「涅槃」「夜叉」は1語
- 「阿耨多羅三藐三菩提」は「阿耨多羅」「三藐」「三菩提」に切れるか?
- 「所以者何」は「所以」が節主語で「者」がmark
- 「如是」は「かくのごとき」
『織田佛教大辞典』
[外字表]
- 2021年6月4日
品詞分類(2017.5.16版)
『織田佛教大辞典』
[索引GitLab]
- [残存外字ページ](1988.3.20新訂7刷)
- [語彙分類一覧]
- 「経名」は「n,名詞,主体,書名」
- 「地名」は「n,名詞,固定物,地名」
- 「流派」は「n,名詞,主体,集団」
- 「菩薩」は「n,名詞,主体,神仏」
- 「界名」は「n,名詞,固定物,地名」ただし「器世間」は「n,名詞,制度,場」
- 「行事」は「n,名詞,制度,儀礼」でも「施餓鬼」は「施」「餓鬼」だろうか
- 「天名」は「n,名詞,主体,神仏」
- 「職位」は「n,名詞,人,役割」
- 「修法」「儀式」は「n,名詞,制度,儀礼」
- 「植物」は「n,名詞,固定物,樹木」
- 「異類」は「n,名詞,主体,動物」
- 「真言」は「n,名詞,可搬,伝達」?
「阿耨多羅三藐三菩提」に対するUniversal Dependencies案
SIKU-BERT(四庫全書BERT)
- 2021年7月2日
『世界のUniversal Dependenciesと係り受け解析ツール群』
『梵藏漢對照 佛説阿彌陀經 譯註』
[kanripo]
THESAURUS LITERATURAE BUDDHICAEの「如是我聞」と『金剛般若経』
- 2021年7月16日
『佛説阿彌陀經』
[GitLab]
[Kanripo]
- 呼びかけの「舎利弗」はvocativeに
- 「摩訶薩」は1語?
『アイヌ語Universal Dependencies再考』
[GitHub残骸]
[GitHubフォーク]
人文科学とコンピュータ第127回研究会
- 2021年7月30日
東洋学へのコンピュータ利用
『金剛般若波羅蜜經』
[GitLab]
[Kanripo]
- 2021年9月3日
日本ソフトウェア科学会第38回大会
JADH2021
じんもんこん:-)2021
日本漢字学会
『金剛般若波羅蜜經』
- 「金剛」は「n,名詞,可搬,道具」
- 「般若」は「n,名詞,可搬,成果物」
- 「波羅蜜」は「n,名詞,描写,形質」
- 「經」は「n,名詞,可搬,伝達」
- 2021年9月17日
維摩詰所説經
[kanripo]
[GitHub]
Transformersによる形態素解析モデル(UPOS)
京都大学デジタル人文学国際会議KUDH2021
- 2021年10月1日
『維摩詰所説經』
[kanripo]
[GitHub]
[京大貴重書]
梵蔵漢対照『維摩経』『智光明荘厳経』
『面向多領域先秦典籍的分詞詞性一体化自動標注模型構建』
『面向海量典籍文本的深度学習自動断句与標点平台構建研究』
『漢文読解問題の単語分散表現による解法』
[JHES2021]
『Instance-Based Neural Dependency Parsing』
- 2021年10月15日
じんもんこん2021ゲラ稿チェック
NINJALサロン第228回「日本語 Universal Dependencies における単語分かち書き」(2021年10月19日)
『現代日本語書き言葉均衡コーパスのUniversal Dependencies』
『日本語の単語依存構造解析のための長単位解析』
『「現代日本語書き言葉均衡コーパス」の長単位認定基準について』
言語処理学会第28回年次大会
DH2022
日本語・現代中国語・古典中国語・タイ語係り受け解析ツールesupar
『Instance-Based Learning of Span Representation: A Case Study through Named Entity Recognition』
『Label-Agnostic Sequence Labeling by Copying Nearest Neighbors』
『Instance-Based Learning Algorithms』
- 2021年11月5日
NINJALサロン第228回「日本語 Universal Dependencies における単語分かち書き」(2021年10月19日)
日本語「長単位」モジュールの製作
- bert-base-japanese-luw-upos・bert-large-japanese-luw-upos試作
- 青空文庫「長単位」(仮)テキストaozora.luw.txt.gz作成(GeForce RTX 2080で20時間)・異体字増量版aug.luw.txt.gzも作成
- Japanese-LUW-Tokenizer作成
- roberta-small-japanese-aozora作成(GeForce RTX 2080で60時間)
- roberta-small-japanese-luw-upos作成
『維摩経』の「梵」
- 「梵王」は「梵」は「n,名詞,人,その他の人名」
- 「梵行」の「梵」は「n,名詞,描写,形質」
『基于RoBERTa-CRF的古文历史事件抽取方法研究』
『古汉语实体关系联合抽取的标注方法』
- 2021年11月19日
Universal Dependencies 2.9
アイヌ語ラジオ講座テキスト一覧
じんもんこん2021:-)
文言文⇔現代文翻訳器
[GitHub]
[Facebook]
NLPCC 2021
- 2021年12月3日
CoNLL-UエディタのWindows11対応
古典中国語(漢文)文切りモデル
『簡易小型化BERTを利用した日本語構文解析』
『BERTを用いた日本語係り受け解析の精度向上要因の分析』
『日本中世和化漢文における非使役「令」の機能』
- 2021年12月17日
『維摩詰所説經』
- 「方便」は「n,名詞,思考,方略」を新設
- 「相好」は「相」─conj→「好」(n,名詞,描写,態度)
- 「若干」は「若」(v,動詞,行為,分類)─obj→「干」(n,名詞,数量,*)
品詞分類(2021.12.17版)
じんもんこん:-)2021報告
人文科学とコンピュータ第128回研究会
『デジタル・ヒューマニティーズ』第三号投稿募集
JHPCN共同利用・共同研究公募
- 2022年1月21日
『摩訶般若波羅蜜大明呪經』
[kanripo]
[GitHub]
中文剖析系統
[語意角色]
[論文]
CKIP-lab
JED2022 日本語における評価用データセットの構築と利用性の向上
『唐詩三百首』
卷一
卷二
卷三
卷四
卷五
卷六
- 2022年2月19日
人文科学とコンピュータ第128回研究会
『Word Delimitation Issues in UD Japanese』
- 2022年4月15日
『Universal DependenciesとBERT/RoBERTaモデルによる多言語情報処理(2022年2月版)』
(2022年3月版)
JHPCN共同利用・共同研究公募採択課題
Universal DependenciesにおけるAUXの扱い
『自動獲得された因果関係知識に基づく文間の因果関係の推定』
『単語分割と後段モデルの損失値を用いた同時最適化』
- 2022年5月20日
新釈漢文大系『日本漢詩』
上
下
言語処理学会第28回年次大会予稿集
Universal Dependencies 2.10
『Universal DependenciesとBERT/RoBERTaモデルによる多言語情報処理(2022年4月版)』
Unigramトークナイザの最大トークン長と最大語彙数は係り受け解析に影響するのか
- 2022年6月3日
新釈漢文大系『日本漢詩』Editor
上
下
JHPCN: 学際大規模情報基盤共同利用・共同研究拠点 第14回 シンポジウム(2022年7月7〜8日・東京コンファレンスセンター品川)
第4回InDi學術大會(2022年11月26日・忠南大學)
[第3回]
[第2回]
[第1回
(PDF)]
『DeBERTa: Decoding-enhanced BERT with Disentangled Attention』
[ICLR2021]
[スライド]
[解説]
『Rhetorical Structure Theory: A Theory of Text Organization』
- 2022年6月17日
『Universal DependenciesとBERT/RoBERTaモデルによる多言語情報処理(2022年5月版)』
『Reed-Kellogg, Tesnière, Мельчук, and Universal Dependencies』
『Dependency Parsing as MRC-based Span-Span Prediction』
[GitHub]
TransformersのQuestion Answeringを用いた係り受け解析器
- 2022年7月1日
『古漢語詞義注語料庫的構建及応用研究』
[CCL2021]
『基于預訓練語言模型的繁体古文自動句読研究』
『基于BPE分詞的中国古詩主題模型及主題可控的詩歌生成』
『Development of a Multilingual CCG Treebank via Universal Dependencies Conversion』
『TMUNLP at the NTCIR-16 FinNum-3 Task: Multi-task Learning on BERT for Claim Detection and Numeral Category Classification』
[NTCIR-16]
[FinNum-3]
JHPCN: 学際大規模情報基盤共同利用・共同研究拠点 第14回 シンポジウム
- 2022年7月15日
『世説新語』
[kanripo]
[wikisource]
[新釈漢文大系(上)(中)(下)]
『戦国策』
[kanripo]
中国古典小説選
EvaHan 2022
[proceedings]
roberta-small-hi-char
[GitHub]
- 2022年7月29日
東洋学へのコンピュータ利用
- 2022年9月16日
戰國策editor
[kanripo順]
[新釈順]
nsubj:outerとcsubj:outerの追加
[Multiple Subjects]
[Predicate Clauses]
IHER2023
『Zuo Zhuan Ancient Chinese Dataset for Word Sense Disambiguation』
[GitHub]
中国古籍保護協会「古籍智能開発与利用専業委員会」
- 2022年9月30日
『Contrastive Learning between Classical and Modern Chinese for Classical Chinese Machine Reading Comprehension』
『HUE: Pretrained Model and Dataset for Understanding Hanja Documents of Ancient Korea』
第253回自然言語処理研究会
データ活用社会創成シンポジウム2022
roberta-classical-chinese-base-ud-goeswithによる句間リンク抽出(開発中)
- 2022年10月21日
AI等の活用を推進する研究データエコシステム構築事業
『数字人文視角下的非物質文化遺産文本自動分詞及応用研究』
『Using Language Models to Improve Rule-based Linguistic Annotation of Modern Historical Japanese Corpora』
roberta-classical-chinese-base-ud-goeswithによる句間リンク抽出(まだ開発中)
- 2022年11月4日
Universal Dependencies Workshop 2023
[Call for Papers]
[OpenReview]
Language Processing in Data Analytics (LDA2023)
第4回InDi學術大會(2022年11月26日・忠南大學)ゲラ稿
roberta-classical-chinese-base-ud-goeswithによる句間リンク抽出(チューニング中)
- 2022年11月18日
Universal Dependencies 2.11
[短報]
第4回InDi學術大會
漢文教育研究所第6回招待講演會
UDW2023ゲラ稿
言語処理学会第29回年次大会ワークショップ
『簡易小型化BERTによる日本語構文解析』
『NINJAL Parsed Corpus of Modern Japaneseの構築と公開』
[NPCMJ]
[かいのき]
[ONCOJ]
[ONCOJのGithub]
- 2022年12月2日
漢文教育研究所第6回招待講演會(報告)
[当日資料]
[demo]
第4回InDi學術大會(報告)
『Yet Another Format of Universal Dependencies for Korean』
[GitHub]
『A New Annotation Scheme for the Sejong Part-of-speech Tagged Corpus』
韓国語の係り受け解析は語節と形態素のどちらが適切なのか
JHPCN共同利用・共同研究公募
データ活用社会創成シンポジウム2022&mdxチュートリアル
- 2022年12月16日
じんもんこん:-)2022
roberta-classical-chinese-base-ud-goeswithの解析手法を他の言語に応用する
- 2023年1月20日
『戰國策』
[kanripo順]
[新釈順]
『世説新語』
[kanripo]
[wikisource]
[ctext]
[新釈漢文大系(上)(中)(下)]
[エディタ]
『日本書紀』
[wikisource]
『古事記』
古事記ビューアー
LDA2023ゲラ稿
『ローマ字・カタカナ・キリル文字併用アイヌ語RoBERTa・DeBERTaモデルの開発』
共同研究班まとめ