人文情報学の基礎研究 – Fundamental topics in Digital Humanities

Table of Contents

2013-04-23 第一回

本日は先ず班長によって研究班の課題と趣旨説明が行いました。その後出席 の班員による自己紹介ないし研究課題に関しての意見校勘があって、最後に 班長は今までの取り組み一例としてあげまして。

研究班の課題とビジョンとしては三つが取り上げられた:

  • 東方学の研究者にとって使用可能なデジタル資料が豊富に有りながら、研究者の 立場から使いづらいところがあって、それを改善する。
  • 東方学諸分野の研究者と情報学的な背景を持ちの研究者或いはデジタル資 料作成の実践者の間に分野と立場を横断出来る学際的なコミュニティーを 形成する。
  • 共有出来る道具と方法についての共通認識を高めると共有する。

そうしてもっと具体的な課題としては「漢籍リポジトリ」という物を構築する。それは

  • 研究者にとっては自分自身が管理可能な資料を集めて、整理すると研究プ ロセスを支援する
  • 機関にとしては研究成果物を公開する
  • 技術的な立場から見れば上記の複数の研究者や機関を繋げる分散型リポジ トリのための規定

のような物となります。

こんなような物に成り得る為の出発点或いは一つの実例としては、 Emacs上で実践した研究支援ツール「Mandoku 」が紹介されました。この Mandokuを使って校訂テキストの作成、テキストの解読(全文検索、辞書参照)など が可能ですが、未だ個人の研究者の一つの道具に過ぎない、汎用性に欠けています。

同じ様なテキストのもう一つの見せ方としてのWebsiteも紹介された、それは 電子版《道藏輯要》 の実験版です。これもこれから研究班の議論によって改善し て、公開可能な形にしたいとおもいます。

2013-05-14 第二回

本日は班員により漢籍研究におけるデジタル道具の実用と期待について簡単な紹介と意見交換が行いました。その中では

  • 文章の構造記述
  • 引用文や逸文の特定
  • テキスト間ないしテキスト内の関連性の検出と記述
  • 同じ様なトピックの文章の特定
  • 適切なテキスト・モデル
  • 符号化された文字と拓本などに見える不規則的な文字の分類、整理、研究

などの問題ご出されました。

次回は漢籍リポジトリのテキスト形式やデータ記述の具体的な検討を予定しています。

2013-05-28 第三回

前回に続いて本日も班員により漢籍研究におけるデジタル道具の実用と期待 について簡単な紹介と意見交換が行いました。今回は

  • 漢間や木簡の出土文献の扱いに於ける諸問題 (感想:それは簡単ではない!)
  • 原文(テキスト、複数の録文)、画像と研究ノートの総合的な管理
  • KWIC(keyword in context)検索機能
  • 経典、宗教文献の時代別の研究、著者などで絞って検索
  • 複数のテキストにまたがる横断検索(grep、正規表現:漢字字体を無視して検索)
  • 複数のDBの文献を横断的に扱う
  • 文字オントロジーの研究、
  • 部品からの文字特定
  • IVSに表現できる文字の整理、分析

などの問題ご出されました。

今回はマンドクのテキスト・モデルの話も予定していましたが、それは次回 に延期されました。

2013-06-11 第四回

参考

活動報告

本日は編集文献学とそれに基づいたマンドクに扱われるているテキスト・モ デルについて議論しました。

先ずは編集文献学では基本的に「テキストの既存の版本の記録」と「それら の解釈に基づいた新しいエディション」の違いを確認しました。 両者を明 確に区別して、それぞれを別に扱うことを可能するは文献の学術的な編集に 不可欠なことです。 又、一つの版本しか無い文献についても「記録」と 「解釈」の区別は作業上に重要です。

次はマンドクではこれどんなように実現されていることについて話し合いま した。 マンドクでは各版本の記録は「録文」(文字)と「画像」(ファク シミリ)のセットで扱うのは理想です。しかしある版本、例えば大正新修大 蔵経によるの明版にはこうした情報無ければ、文字の情報だけでもありがた いです。 複数の版本の記録のあいだ自由自在横断できる為にマンドクでは 一つの版本を「基本版」(base edition)と指定し、他の版本にもその基本版 の位置情報(ページ番号など)を記録する。 さらに、新版のエディション や注釈、翻訳など「解釈」として新たなに作られた版にもそれぞれにその位 置情報を記録し、一つのテキストの全てのバーションにその情報を記録する。

2013-06-25 第五回

活動報告

本日は活発な議論で漢籍リポジトリーの設計に関する色々なご指摘頂き、 班長としては収穫は多かった。「目録」や「メタ・データ」、「分類」など 情報学や人文学(東方学?)には微妙に違う意味合いで使われていることに改 めて気付かされました。 IDに関するの色々な考え方などもこれからのシス テム設計に如何反映させれることは一つの課題として受け取った。

2013-07-09 第六回

参考

  • Christian Wittern: "Beyond TEI: Returning the Text to the Reader", in Journal of the Text Encoding Initiative, http://jtei.revues.org/691

活動報告

本日は既存のマンドクというブラックボックスの中身を非常に大まかに説明 して、それからマンドクを複数のユーザーで使えるための必要な条件を議論 しました(上記の資料(1)を参照)。より具体的に一つの例としては資料(2)の 分散型版管理システムであるgitを使って幾つのシナリオを議論しました。 そのなかは

  • 起源の異なるブランチをマージする時にソースの記録が無いので、コミッ ト時点で記録する必要がある
  • 学術界の分散型ソーシャル・ネットワークを考える必要があるかも知らない
  • システムとの全てのやり取りを記録するべきか
  • 悪質な編集・参与への対策は必要ではないか

などの意見が出ました。

今までに出ていたご意見を踏まえた、九月の拡大研究会までに次世代マンド クと漢籍リポジトリのたたき台を作りたいと思います。

2013-09-28 拡大研究会

(14時より分館の大会議室で)

参考

Mandoku previewについて

  • Mandoku preview package:
    • Win版 使用方法:中身の"krp"フォルダーをウィンドウズのC:へコピーして、krpのなかにある"Emacs"をクリック。
    • Mac版 使用方法:"krp"をユーザーのホーム(家のアイコンがある場所)にコピーして、"Emacs"はアップリケーションに入れて、実行する。

Emacs 操作など:

活動報告

本日の研究班ではまず前期の議論を踏まえながら、班長夏休みの間の作業に ついて説明が行われた。

そのあと出席の班員それぞれのパソコンにマンドクのプレビュー・パッケー ジをどうにゅうしました(上記の説明を参照)。幸いに大きな不具合はなかっ たが、少し問題になったのは以下の二点: 

  • Windows版はCドライブ以外に起動しない。–> 対策:\krp\Emacsのショー トカット・ファイルを右クリックして、「プロパティ」の中の「リンクさ き」の「C:\krp\bin\emacs-24.3\bin\runemacs.exe」になっているところ の"C"をしかるべきドライブに書き換えて、その下の「作業フォルダー」 にも同じように書き換える。
  • Mac版のカタログ・ファイルは壊れていました。–> 対策:ユーザーフォ ルダー(ホームダイレクトリ)に有る"krp"の中の"meta"の中の "mandoku-catalog.txt"を削除して、Emacsを再起動する。このファイルは 自動作成されますので、無かったらあらかじめ作成します。

それからマンドクの基本操作の以下の三つを紹介して、動作を確認しました:

  • 「F6」 キーで動く「全文検索」:この機能は開いているテキストのカー ソルの一に有る6つの文字を拾って、一番したの行に検索語の候補者とし て表示します。「バックスペース」或は「delete」キーで候補者文字消し たり、或は他の検索語いれてから「enter」を押すとその検索語の一字索 引を作成されて表示されます。 表示された索引の右にテキストのその場 所へのリンク、左に目録の中にそのテキストの場所を開くことができます。
  • 「F7」 キーで「タイトル検索」できます。一番下の行に検索語入れて、 「enter」キーを押すと、その検索語を含むタイトルの一覧表が表示され ます。 見たいテキストが表示されている行にカーソルを移動してから 「t」キーでテキスト(text)を閲覧出来るが、「c」キーで「目録 (catalog)」を出せる。
  • 「F5」 キーでは辞書検索を行います。選択された範囲が有ればそれを検 索語としますが、無かったらカーソル位置のその行全体が検索対処となり、 辞書モジュールの中の辞書一括で検索して、それぞれの結果を表示します。 なお、辞書検索に未だ不具合がありますので、時々結果が出ない。

最後に意見交換の時間をもうけて、辞書モジュールの改善や全体としての貴 重なご意見頂きました、これかれマンドクに可能の限りに取り入れたいと思 います。

2013-10-22 第八回

本日に出席頂いた班員に先ず「マンドク」の現在の利用状況と感想を述べて頂 きました。「殆ど使っていない」の答えが多かったが、更に聞くと「使え方は よくわからない」、「使い勝手がイマイチ」などのことを聞きました。確かに そうだと思います、これから開発を進むところです。一方Emacsの基本操作も難 関であることを再確認しました。

しかし、そのためにより具体的な意見がありがたい。結局のところ以下のよう な問題点を伺いました:

  • Windows7 では日本語入力は変になってしまう。 (調べてみればこれは確か にEmacsとWindows IMEの相性の問題、対策としては「Google日本語入力」が 進まれる)
  • 「F6検索」ではカーソルがリンクなどの前にある場合はゴミが拾てくる。
  • proxyの設定が反映されていないので、proxyがある場合は検索出来なくて、 パソコンがフリースしてしまう。
  • 「F6検索」を押してからマウスで違うところをクリックすると転んでしまう。

それ以外も資料の完全性、信頼性、拡張性について意見と相談が有りました。 最終にテキスト・データベースの全体像、使用者の編集過程のイメージなどに も触れました。 

開発の次の一歩はそこの所にあるかと思い、上記の問題も改善して、次回まで 新しいバーションを作りたいと思います。

2013-11-26 第九回

本日は先ず「漢籍リポジトリ」のサーバー側とEmacsの「マンドク」側の通信に ついての現在実装されている状況を説明しました。それからSSHにより通信仕組 みを解説して、出席の班員は以下の手順で各自のパソコンでSSHの鍵を作成しま した(Windowsで、上記のプリビユー・パッケージC:\ にコピーした場合):

  • C:\krp\bin\Git\ のフォルダー内の Git Bash をクリックする => 黒っぽいウインドウが開かれる。
  • その中では ssh-keygen をタイプして、「enter」 を押す。 => "Enter file in wich to save the key (c/ユーザーフォルダー.ssh/idrsa):" が表示されます。
  • ここで「enter」を押す => "Created directory …" が表示されます、その下: "Enter passphrase (empty for no passphrase):" が表示されます。
  • ここはこの鍵に設定したいパスワードを入力します、ただし「enter」だけ、 つまり空白のパスワードも可能です。(パスワードそのものは表示されませ ん) => "Enter same passphrase again:" が表示されます。
  • 先のパスワードも一度入力します。 => "Your identification has been saved …" など数行のメッセージがでます、これで鍵作成が成功しました。

次は班員のために作成したGitLab「漢籍リポジトリ」のアカウントにログイン しました。そこでは先ずメールで送られた仮パスワードを自分で決めたパスワー ドに変更して、それから「Profile」の中の「SSH Keys」画面を開きます。一番 右側に「Add SSH Key」のボタンをクリックして、先で作成しました鍵をここに 貼付ける。 その為にユーザフォルダーにある「.ssh」フォルダーを開いて、そ こに作成された「idrsa.pub」のファイルをメモ帳などで開き、中身を全部コ ピーして、ブラウザにペーストして、「Title」に適当なタイトルをつけて、 「Add Key」を押す、これで鍵の追加が完成です。

以上の作業でEmacsとサーバーに有るGitリポジトリで簡単にやり取りが出来る ようになります。一月までにこれを使用するマンドクの新しいバーションを作 成して、研究班で紹介したいと思います。

2013-12-10 第十回

講演会「仏教研究の道具としてのCBETA仏典集成」

今回の研究会では台湾の法鼓山仏教学院の二人の講演者を招き、講演会を開催 しました。

場所:白川分館大会議室 時間:12月10日 午前10時〜12時

発表題名は以下のとおりでした:

Aming Tu 杜正民 (Dharma Drum Buddhist College 法鼓山仏教学院教授): CBETA as a Buddhist Digital Research Environment

Hung, Jen-Jou 洪振洲 (Dharma Drum Buddhist College 法鼓山仏教学院副教授): Buddha Ngram Viewer: A Ngram Visualization Tool of Chinese Buddhist Translation Texts.

2014-01-14 第十一回

新しいMandoku preview

  • 2014-01-13 Win版 使用方法:中身の"krp"フォルダーをウィンドウズのC:へコピーして、krpのなかにある"Emacs"をクリック。
  • 2014-01-13 Mac版 使用方法:"krp"をユーザーのホーム(家のアイコンがある場所)にコピーして、"Emacs"はアップリケーションに入れて、実行する。

活動報告

本日の研究班には先ず班長により「カンリポ」と「マンドク」の最新の設計方 針の説明がありました。それによりますと「カンリポ」上に「公開プロジェク ト(テキスト)」と「個人プロジェクト(テキスト)」があります。後者は前者を fork方針でコピーした形で作成します。 こおうしたシステムがどんなような ワークフローを可能にするか、或は前提にするかという点について暫く議論が 行いました。 具体的な問題は「forkによって作成してプロジェクトには更なる forkが可能か」です。 システム上ではnamespaceはフラットとなっていますので、 必要になればメタデータのレベルで二重のforkの扱いが可能にするか、ブロッ クするかとなりますが、現時点では何方でも可能な(つまり、ユーザの必要によっ て変更可能な)システムを目指す。

それから上記のプレビュー・バージョンを導入することになりましたが、ネッ トなどの不備のためには完全な動作確認は出来なかった、新しい機能などの 説明で終わりました。 

2014-01-28 第十二回

資料

本日は年度最終回になりましたので、今年度の進展を顧みと来年度の課題につ いて議論しました。 マンドクの方では"Mandoku->Maintenance->Update Mandoku"を実行して最新ヴァージョンに更新してから、資料の「magitの設定と 使用」に従ってバージョン管理システム用のインタフェースである magit をインストールしました。これで上記の「ワークフロー 全体像 (2)」の通りの仕組みの土台ができつづがありますが、機能と使え方にはまた不十 分な点があります。

来年度の課題としては以下の者を確認しました:

  • テキストと図版の同時表示
  • 比較用に異なるバージョンのテキストを表示
  • ユーザーのテキストをシステムに導入する方針と道具
  • 複数のテキストを叢書として扱う為の仕組み(例:《道蔵輯要》など)
  • 漢籍リポジトリのウエッブ上の充実
  • 辞書表記と辞書管理

2014-04-22 第十三回

新年度の最初の研究会では、先ず昨年度と春休みの期間中で漢籍リポジトリと マンドクについての新しい発展を説明して、それから今年度と研究班の残り二 年間の予定について議論しました。

前回からの進展:

  • 道蔵から1534点のテキスト新しく追加しました。
  • 各バージョンから他のバージョンの画像が参照(閲覧)出来るようになりまし た。現時点では、それは道蔵の「涵芬樓」からとった画像と所謂「三家本」 の画像と仏典の高麗大蔵経の画像の情報が反映されました。

これからの課題としては以下の点について議論しました:

  • 編集作業中には「校訂作業」と「修正作業」(つまり、ただの入力ミスを修 正する)の違いがあって、システムではそれぞれの違う対応が必要。
  • テキスト間のリンクが必要、こうしたリンクは何処で管理する、どうやっ て編集する、参照種類や範囲をどう設定するかなどの課題について検討が 必要。
  • 今のシステムは比較的に「近い」テキスト・バージョンを前提する。仏典 の異訳や小説の異本はそのまま管理憎いだろう。

2014-05-13 第十四回

今日は校訂作業に必要な機能の検討から研究行為上の必要の検討にシフトしま した。特に前回が問題になっていた「テキスト間のリンク」について検討が行っ た。以下の論点がでました:

  • リンクに種類が有り、以下のもの区別が必要だろう
    • テキストへのリンク
    • 物理的構造単位へのリンク(eg ページ)
    • 論理的構造単位へのリンク(章、節など)
  • リンクそのものの構造化、グループ可
  • リンクそのものもバージョン管理が必要か?!
  • リンクに含むべき情報:
    • ソース、ターゲット、始めと終わりの幾つかの文字、
    • ソースとターゲットのバージョン
    • リンクを付けたユーザ
  • リンクの記録
  • ここからのリンクとここへのリンクの表示
  • リンクの保存場所
    • 個人のデータ領域
    • テキストの一環
  • リンクリストとしての検索結果
    • 構造化、編集、コメントを付けれるを可能にする

2014-05-27 第十五回

今日は前回に続いて、テキストの間の関係、つまり「リンク」の検討おこない ました。今回は注釈(原文に有る割り注)、さらに現代人の注も含めてのシステ ムの有るべき姿を検討初めました。 そこの中には幾つかの点について議論が 行いました:

  • 以下の三つ異なる行為はこのシステムをサポートしょうとします:

    • 「テキストの翻刻」つまり一つのバージョンのデジタル画像に対応する形で の電子テキスト
    • 「テキストの校訂」:複数のバーションから検討作業を経て確定する新しいバー ション
    • 「テキストに基づいた研究」、つまりテキストの内容についての研究ノート、 読書記録、書き下し、翻訳、コメントなど

    -> 場合によってこの為のサポートは違う対応を需要します、サポートのあり 方について、それぞれの行為の対応を明確にする必要がある。

  • 後の編集などでリンク先の変更が生じる問題にどう対応できるか
    • 削除行為は可能ですか、システムで許せるべきか
    • 時々本文の訂正によって注釈が不要になる
  • 注の書き方、注についてのメタデータの記録(だれの注、何時の注、など)
  • 抽象てきなテキストと具体的な各バーションについての記述は何処でどんな 様におこなうべきか
    • 各バージョンの依存性をどう書けるか

最後に漢籍の著者などの典拠情報の必要性に少し触れてが、扱いについては検 討が必要。

課題は多いが、システムの次のバーションに必要な準備に勤めたいと思います。

2014-06-10 第十六回

活動報告

前回に続いて、主に「研究過程の道具」としてに必要なことについて、上記 のサイトを見ながら、議論が行った。  典拠情報は探すのはよいか、実際 にテキストとの関連性があるかどうか、それを特定するも、研究者の課題だ。 そのために不完全なものも、曖昧なことも、この段階で明らかになったこと が記録できる環境が必要だ。 

具体的な例としては上記の「佛教傳記文學」、つまりそのXMLファイルの記 述を何処までマンドクで再現出来るか、を試してみた。 人名、地名、時間 に関する記述は基本的に該当する箇所の次の行に「:zhu:」として、そこし 形式的な形で記述して、典拠データベース(この場合は「佛學規範資料庫」)の 「key」も挙げて、違う名前で使われている人物を特定可能になる:

 帛遠,
 :zhu:
 帛遠  name::@key=A000305
 :END:
 字法祖,
 :zhu:
 法祖  name::@key=A000305
 :END:
 本姓萬氏,
 河內人。
 :zhu:
 河內 place::@key=PL000000024686
 :END:
 父威達,
 :zhu:
 威達  name::@key=A002489 
 :END:
 以¶儒雅知名,
 州府辟命皆不行。

しかし、実際にこのシステムを使うことになると、そこまで詳しい情報がな い場合は、不明なところ省略して、後に補うことも可能、例えば「place」 を書いて、「地名」であることだけを明記する。

 :zhu:
 河內 place::
 :END:

或は、前掲と同じ人物が、典拠データベースのkeyがない場合には、その事も記録可能だ:

 帛遠,
 :zhu:
 帛遠  name::
 :END:
 字法祖,
 :zhu:
 法祖  name::==帛遠
 :END:

こうした形で一定の規則に沿って追加情報(メタデータ)をテキストに入れる ことによって、それをざまざまな形に変換して、それぞれの目的に使用可能 となります。

2014-06-24 第十七回

新しいMandoku preview

  • 2014-06-23 Win版 使用方法:中身の"krp"フォルダーをウィンドウズのC:へ コピーして、krpのなかにある"start-mandoku"をクリック。
  • 2014-06-23 Mac版 使用方法:"krp"をユーザーのホーム(家のアイコンがある 場所)にコピーして、"Emacs"はアップリケーションに入れて、実行する。

漢籍リポジトリの新サーバーへのアクセス:

結局は新Win版のプレビュー・バージョンは思ったこともないところに問題が 生じて、マンドクからのcloneは凍結してしまう。この問題の原因をしらべて、 次回まで更新したいと思います。次回は四週間後の7月22日に予定してい ます。

今日は拡大研究班の日付を8月30日(土)に設定しました。皆さまその日を予定 に入れて頂き、当日ご参集よろしくお願いします!

2014-07-22 第十八回

新しいMandoku preview

  • 2014-07-21 Win版 使用方法:中身の"krp"フォルダーをウィンドウズのC:へ コピーして、krpのなかにある"start-mandoku"をクリック。
  • 2014-07-21 Mac版 使用方法:"krp"をユーザーのホーム(家のアイコンがあ る場所)にコピーして、"Emacs"はアップリケーションに入れて、そしてkrp のなかにある"start-mandoku"を実行する。

活動報告

今日はDH2014に於いての発表の中、ここの研究班のテーマに特に関連性の高 いものを選んで、班員に紹介しました。

それから新previewを皆で試して見ましたが、一つの問題は解決出来たが、 二つは新しく生じたので、Windowsとの戦いは未だ終わっていない。次回ま でには実際に使えるような物にしたいと思います。Mac版のpreviewは問題 ないと思います。

拡大研究班の日程に付いても相談出来ましたが、やはり出席可能が多いの9 月27日に決めました、8月30日には開催しない。

後期の日程は基本的には第二と第四火曜日になっていますが、やむえず開催 出来ない日もありますので、以下の通りになっています: 10月14日、 10月28日、11月25日、12月9日、1月13日、1月27日と2月 10日。

2014-09-27 拡大研究会

参考

Mandoku previewについて

  • 2014-09-25-preview Win版: 使用方法:中身の"krp"フォルダーをウィンドウズのC:へコピーして、krp のなかにある"start-emacs"をクリック。
  • 2014-09-25-preview Mac版: 使用方法:"krp"をユーザーのホーム(家のアイコンがある場所)に コピーして、"Emacs"はアップリケーションに入れて、krp中の。

活動報告

今回の研究会では今までの活動とこれからの計画に少し触れるながら、最近の 動きを紹介しました。 その一つは「漢籍リポジトリ」の初めてのウエブ版の 実験的な公開。 研究会に参加出来なかった班員もで確認出来る (http://www.kanripo.org/)、又ご意見も頂戴したいと思います。 初めてのバー ションですので、改善すべきところが多いし、今回の討論でも既に幾つかのヒ ントを頂きました:

  • "and" 検索は出来ないのか、
  • 検索のソートを入れ替えたりと出来たらよい、
  • 違うテキストの間の直接な比較、など

その後で最新版のプレビュー・パッケージをインストールして、使用テストが 行いました。 結論からいうと、前回に比べて改善されているところ有りますが、 使用中にマシンが凍結するケースもまた有りましたので、引き継ぎ解決を探る 必要がある。プレビュー・パッケージとマンドク全般についても新しい意見が 有りました:

  • SSH キーの設定はもっと簡単に出来ないか、このままは一般の研究者は使 えない。
  • 凍結を避ける方法を考えるべき
  • 全体の機能をもっと判り易く説明すべき
  • 目録、特に仏典のZB6は開くに非常に時間がかかる
  • 研究者/ユーザー自身のテキストをどんな手順で入れて、どう使えるかに ついてのワークフローを設計する必要がある

それ以外のご意見と議論で様々なヒントを得て、次のバーションに反映した いと思います。

2014-10-14 第二十回

前回から抱えている課題について少し議論を深めました、特に「凍結」と 「"and"検索」について話ました。

  • 凍結(フリーズ)対策としては先ずダウンロードの流れを変えて、バックグ ラウンドで行う様に設計する。ダウンロード終了後ローカルの目録("My Documents"見たいなもの)に登録する。これは根本的な改善にはならないが、 被害を最小限にとどまるための手段です。
  • "and"検索について:先ず範囲は如何設定するかの問題について、ユーザー によって「巻」と「段落の様なもの」(つまり、比較的に小さな、内容で) を選択可能にする。 「段落内アンド」を実現するために現在使っている インデックス形式も少し変更する必要がある。その際に他に変更点がある か、インデックスの更新方法と手順、そしてそのアンド検索の結果を如何 表示するかについて意見を交わされた。

結果としては今日予定していたテーマ「研究者自身の資料を漢籍リポジトリ に追加する手順」の議論は次回への持ち込みになっていたが、上記のポイン トについて頂いた貴重な意見でマンドクの開発は一歩さきに進んだと思いま す。

2014-10-28 第二十一回

本日はBill Makさんが今取り組んでいる研究プロジェクトを紹介しました。 サンスクリット文献または漢訳仏典や漢籍を中心に天文学的な考え方に古代 ヨーロッパの影響を如何見られるか、そしてどういう展開があったかは大旨 の問題定義。具体的な作業としては文献の様々なデータベースから関連する テキストを捻出して、それを整理することになるだろう。なかには《漢籍リ ポジトリ》も使って、その機能の向上に繋がるご意見も頂けると思います。

二つ目のテーマは漢籍リポジトリへの新しい資料の登録でして。現時点では gitのリポジトリの使え方やマンドクの形式や構成についての知識が必要ので、 かなり高いハードルがあると感じました。これをどんな様にして研究者やマ ンドクのユーザーに使えるように出来るかは課題として残ります。

2014-11-25 第二十二回

Mandoku installerについて

本日は主にマンドクのWindows Installerを巡って議論が有りました。先ず は班長から新しいインストーラーの必要性と今までのpreviewとの違いにつ いての説明が有りまして。全体としてユーザーが慣れている形で進もと ssh-keyの自動インストールの利点があります。 しかしEmacsを始めとする、 他の必要なアップリケーションとのやりとりはより複雑になるという問題も 有りまして、引き継ぎ検討と実験が必要です。

他にインデックスの新しい形についての幾つかの問題も検討しました。本文 と割り注などの注釈は別のストリームとして扱う、インデックスでも別扱い になる。 しかし、この方法で字と字の間の距離の計算は困難となり、検索 ではこうした機能は付けれないという指摘もありました。 検索結果の表示 とテキストの表示にも若干の違いが出る、そこから問題生じる可能性もある。

2014-12-09 第二十三回

マンドク インストーラー

今回はインストーラーもう一度初めかれ作り直しました。Windows、Mac用にそれぞれ二種類 が有ります:

今度Mac用のインストーラーも作成しました:

インストーラーの問題はやはり少し楽観的に見ていました、一つの問題が解決し たら、二つぐらい新しく出るの様な気がした。しかし、それでも確実に前に進 んでいます、全体の形に近づくだと思います。特にインストーラーの"HOME"の設定と (Win7上の?)管理者権限を次のバージョンまでの修正を課題として受けました。  マンドクその物の操作とデータの作成については今日にあっまり時間を与え ることが出来なかったが、この当たりは次回にもう少し触れたいと思います。

2015-01-13 第二十四回

マンドク インストーラー/パッケージ

Windows用のインストーラーを作り直しました。今回は自動インストールと 従来とおりのzipパッケージが在ります。Windows7にはzipパッケージのほ うがいいかもしらない:

  • mandoku-setup-full-0.3.exe (100MB) このインストーラーに必要なソフト(Emacs、Git、Python)全て入っています、そのまま使用できます。
  • mandoku-zip-full-0.3.zip (250MB)こちらも必要なソフト入っていますが、ハードディスクのルー トにコピーして(例: C:¥kanripo)、そして c:¥kanripo¥bin¥start-mandoku.batをクリックしてきどうしてくださ い。デスクトップにリンク貼るのはお進めです。

活動報告

先ず香港でctext.orgの責任者であるDonald Sturgeonとの話とctext.orgの構造について報告がありました。 次は目録の見直しの必要性について説明しました。現在の目録(ZB1からZB6xのファイル)には分類の間違い以外に以下の様なもんだいがあります:

  • 本来書物として別の物は誤って一区切りになります(例:ZB1a0146 學易初津二卷 易翼宗六卷 易翼說八卷 )こんなような場合は各テキストに番号を与えます。
  • 誤って番号がないものに番号をつけます。
  • ZB3m 釋家類、ZB3n 道家類をZB6佛部とZB5道部に移動します。
  • 注釈次のテキストしかない場合には「白文」のテキストも入れます(この部分は主に四部叢刊にあるテキストを採用します)。
  • ZB4b 別集類にテキストが多いので、時代別に分けて項目を立てることを検討します。

目録の再編はかなり大きな作業ですので、この際に考える必要のこと是非教えてください。実際の作業は2月に予定です。

それ以外のユーザーデータの扱いについても意見を頂いた、これを踏まえて新しいバージョンを作成したい。

2015-01-27 第二十五回

前回から残った問題としては、先ずユーザ・データの取り扱いについて新しい 提案が有りました:ワークスペースに有る全てのテキストファイルをUTF8への コード変換の候補者としてセレクトして、使用者に確認してから実際の変換が 行う。変換したファイルは新たにつけたgrep検索機能の対象となります。 こうした仕組みでマンドク形式になってないデータも検索が可能になります。

これから班長が漢籍リポジトリの全体の構造に付いて説明が有りまして、採録漢籍を以下の叢書から取る、と。

  • General 総合
    • Siku quanshu 四庫全書 (skqs)
    • Sibu congkan 四部叢刊 (sbck)
    • Sibu beiyao 四部備要 (sbby) ?)
  • Zhongguo jiben gujiku 中國基本古籍庫 (jbgjk) X 目録だけ参考のため)
    • Daoist Texts 道教文献
      • Zhengtong daozang 正統道藏 (dz)
      • Zhonghua daozang 中華道藏 (zhdz)
      • Daozang jiyao 道藏輯要 (dzjy)
    • Buddhist Texts 仏典
      • Taishō shinshū daizōkyō 大正新脩大藏經 (T-taisho)
      • Zokuzokyō 續藏經 (X-xuzang)
      • Goryeo daejanggyeong 高麗大藏經 (K-koreana)
      • Jiaxing dazangjing 嘉興大藏經 (J-jiaxing)
      • Songzang yizhen 宋藏遺珍 (S-songzang)
      • Zhaocheng jinzang 趙城金藏 (S-songzang)
      • Hongwu nanzang 洪武南藏 (U-hongwu)
      • Yongle beizang 永樂北藏 (P-yongle)
      • Qianlong dazangjing 乾隆大藏經 (L-qianlong)
      • Dainippon kōtei kunten daizōkyō 大日本校訂訓點大藏經 (M-kotei-daizokyo)
      • Fojiao dazangjing 佛教大藏經 (G-fojiao)
      • Zhonghua dazangjing 中華大藏經 (C-zhonghua)
      • Zangwai fojiao wenxian 藏外佛教文獻 (W-zangwai)

それに対して班員から、「續修四庫全書」も収録を検討する希望がありました。

2015-02-10 第二十六回

活動報告

Windows上のマンドクに新しい試みとしてgnupackを使って実現して見ると いう事について班員からご意見を頂きました。班長が思っている様な楽観 的な事ではないかも知らないが、全体の仕組みを考えるともう少しこの方 向に進んで行く価値があるだろう。

大幅なデータ再編を直前にして幾つかの点の確認ができました。目録や分 類の重要性、今目標としている方法の注意を払う必要の所の指摘はとって もありがたいことでした。四庫全書のテキストは問題だらけ、だからこそ 避けられないという痛い事実から漢学の将来への導きを見つけ出すの重い 指命のようにも聞こえました。微力でそれは何処まで実現できるのが解ら ないが、その為のインフラ整備(「新幹線」より「奥の細道」方式)でもう 少し準備したいと思います。春休みの間は目録と基本データの再編、マン ドクの新しいバージョンに取り組み、四月に提供出来れば嬉しです。皆さ んが望んでいる方向とズレが出るかも知らないが、貴重なご意見ありがと うございました。

2015-04-28 第二十七回

資料

今年度初めての会合であた、現状報告と今年度の計画が議論の中心となっ た。主に春休みに行った作業としては、漢籍リポジトリの目録の整理と再 構築、四部叢刊と四庫全書の目録整理と画像リンクが挙げられた。この大 幅な変更に伴って、漢リポのテキスト番号も再編も行うが、上記のリン ク(1)に現時点の対応表がある。研究班員にその表の整合性の確認をお願い した。今まで使用したgitlabのサーバは4月16日にサーバ引越しのため に停止した、一部の資料は実験的にこれから使用するgithubのサーバ(2)に 転送したが、全ての資料新しいサーバで使用可能になるのはもう暫く掛か るだろう。

今年度の計画としては、五月中にマンドクと漢リポのウェブサイトの検索 を新しいテキスト形式に対応するようにする、夏までにまた必要な修正を する。年度の後半に報告書向けて「文献学と電子テキスト」、 「漢籍リポ ジトリの概要」、「マンドクの使い方」などの章を検討する。「研究/実例」 の様な章に実際に漢リポを使って行った研究の例として挙げれることも望 ましいだ。報告書は「センター研究年報」として3月に刊行したい。

(1) https://github.com/cwittern/krpmulu/blob/master/mapping.org (2) https://github.com/kanripo

2015-05-12 第二十八回

新しいサーバーとデータの構築に進展が有りましたが、マンドクのWin版に はまだ課題が残っています。しかし全体とうしてはgithubとの通信は以前の gitlabより楽になるかと思います。それ以外も幾つかの点に修正が必要、そ の一つはサーバーのrequestに対しての内容確認、それによってエラーから の回復が可能になるはず。次に六月の研究班までマンドクの全体のパッケー ジを作成して、この問題を解決したい。 次回はkanripoのウエブサイトに 新い版を作りたいが、そのためには今日も画像の表示については幾つかの意 見頂きました。

2015-05-26 第二十九回

今回は新しく構築中の漢リポサーバに追加された機能について議論した。 ページ番号にクリックすれば、そのページの画像が表示される。画像の次の ページは画像をスライドして自動的に表示されると便利(しかし作れるかど うかが問題…)。現時点では他の版本が表示されないが、表示の為の仕組み を検討した。恐らく別のページに同じようにテキストと画像が並んでに表示 されるのは作り易いやり方だ。

二つの検索語を合わせて検索する、両者がヒットする箇所に絞って表示する 仕組みも使った。そこでは一つの問題は「有効範囲」(つまり「巻」、「段 落」と「行」の何れ)は如何指定するかが有りました。現時点では、段落が 単位ですが、テキストによって段落がマークされていない所もある。統一な やり方は出来ないが、検索結果が表示されてからの「絞り」が良さそう。

目録での絞り込みや使用者提議のテキスト・リストも検討しました、次回も で案を作ることになった。

2015-06-23 第三十回

マンドク パッケージ

Windows用のzipパッケージを更新しました。

  • mandoku-zip-full-0.5.zip (250MB)こちらも必要なソフトは全て入っていますので、ハードディスクのルー トにコピーして(例: C:¥kanripo)、そして c:¥kanripo¥bin¥start-mandoku.batをクリックして起動して下さい。

今回のパッケージは32ビットのWindowsは対応していない事以外に新しい 問題は発覚しませんでした、マンドクの基本的な機能、つまりサーバーとの やりとりはこれで確実に出来る、一歩さきに進んだと気がします。しかし、 これかれは実際の操作についての説明、詳細な設定など、課題は多く残って います。

2015-07-14 第三十一回

今回はDH2015の参加報告の後、次回の開催日まで行う予定の作業についての 方針を確認し、貴重なご意見頂きました。これかれ今日確認した日程で残さ れた時間で成果物と報告書を仕上げらためにご協力お願いいたします。

2015-10-13 第三十二回

資料

  • 漢リポ 文字統計
  • 漢リポ テキスト リスト
  • https://www.kanripo.org/
  • https://github.com/

    夏の間の作業概要を紹介しました:

    • 四庫全書文淵閣の画像6百万枚ぐらいを整理して、テキストと合わせました。
    • テキストを新リストに基づいて再編して、四部叢刊を優先的に定本にした。
    • 外字を整理して、画像を作成して、交換リストをはんじめた(主な作業はこれから)。
    • ウエブサイトも新たに構築した、今回はGitHubのユーザーアカウントを使って個人データを保存できる。
    • @kanripoのアカウントで9000種余のテキストをアップした。
    • 関心の有るテキストをフォーク(=コピー)して、編集できる、その結果は漢籍リポジトリでも見える。

      上記の報告後それについてと報告書、その内容と日程についても討論 が行ったし、拡張研究会を2016年3月19日(土)に決めました。

2015-10-27 第三十三回

本日もwww.kanripo.orgの新しい機能を紹介して、それについて議論が行った。

2015-11-24 第三十四回

資料

Windows用のzipパッケージを更新しました:

  • mandoku-preview-2015-11-23.zip (250MB)こちらも必要なソフトは全て入っていますので、ハードディスクのルー トにコピーして(例: C:¥krp)、そして c:¥krp¥bin¥start-mandoku.batをクリックして起動して下さい。

活動報告

本日も先ずwww.kanripo.orgの最新版を検討しました。幾つかのご意見と指摘頂いた。

  • "sort by date" の動くがオカシイ -> 確認して修正済み
  • 検索結果からテキストの中へのジャンプは壊れている -> 確認して修正済み
  • 検索結果とテキスト画面にテキスト番号 (text number)の表示がいる -> 修正済み
  • 外字番号で検索したい -> 確認して、検討中 (対応そう簡単ではない…)

次はMandokuのパッケージの検討に進めました。以外にスムーズにインストールが出来たが、問題点は残る:

  • 現在のパッケージはW32は対応していない -> 32ビットの専用パッケージを別当用意する
  • (Windowsで) Gitからcommitできない、ユーザ情報読み取れない -> ??
  • Mandoku(Emacs)とGitHubのユーザーアカウントとのやりとりは出来ますが、煩雑 -> (半?)自動化検討中

以下の点は両方に関わる:

  • 複数の研究者が使用するグループアカウント(organization)への対応が必要
  • 非公開のリポジトリへの対応が必要

2015-12-08 第三十五回

本日は報告書に向けて第一章 Digital Philology meets premodern Chinese texts: The Kanseki Repositoryと第二章:Sources and organisation of the Kanseki Repositoryの草案を検討しました。特に第一章のFRBRモデルに ついて議論があった、修正します。第二章の資料の来元と目録の構成につい ても説明しました、纏めが必要です。

2016-01-12 第三十六回

本日は報告書の第一章の日本語訳を検討し、語彙などについて議論した。

Author: Christian Wittern

Created: 2016-01-13 Wed 17:19

Validate