研究班報告書の目次(案)

  1. はじめに
    「テキスト情報階層モデル」の図だけは入れる?
  2. 組版に関する共同研究
    とりあえず表層からやろうか
    縦書きがキーワード? 全てが俺様ルール? かなり職人芸で芸術性が高くて自動処理なんて無理かも
    1. 日本語組版における禁則
      原稿用紙との関係? ルビは切れない?
    2. 日本語組版における行末調整
    3. ルビ
      中国語にはほとんどない(ピンインの教科書例はあるにはある)
      W3CのrubyがContext Freeを超えている
    4. JIS X 4051
      「芸術」を「ルール化」したかったのか?
      漢文の組版に納得がいかん
    5. 漢文における「レ点」
      結局ルールなし?
  3. 漢字フォントに関する共同研究
    1. 漢字フォント技術についての概要
    2. 本共同研究で製作したシステム
  4. 画像からの文字切り出しに関する共同研究
    「組版」の逆? かなり数学的専門性が高くてしんどい
    1. 画像処理に必要な基礎技術
      使えなかったアルゴリズムも書け
      1. 大津のしきい値選定法
      2. Sondhiの自己相関関数
    2. 本共同研究でのアルゴリズム
    3. OCRへの応用の可能性
  5. 白文に対する自動「点」打ちの共同研究
    目論見としては「テキスト層」だけでできないかしら?
    漢文屋は「職人技」でやっている 典故は無理? 「天帝使我百獣王」の「天帝」の意味する世界
    1. 末字に着目する方法
      「也」「矣」「焉」はOK、「哉」あたりから苦しくなる
    2. 頭字に着目する方法
    3. 2-gramに着目する方法
      「邙山」とは何か
    4. 韻に着目する方法
      かなりよかった
    5. 現代中国語の文法解析を援用する方法
      あまりうまくいかなさそうだった
    6. 返り点から漢文の構造を抽出する方法
      1. 漢文における形態素解析の概要
      2. 品詞辞書
        現代日本語のボキャブラリの方が実は漢文に近い
      3. スキーマの設計
        次の研究班で頑張る
      4. 自動化の可能性
  6. おわりに
    「漢字情報学の構築」はできたかな?