次世代多言語処理系の
モデルおよび実装の開発

守岡 知彦

多様な構造の情報を自由に編集・交換可能な文書処理系の開発

目標

z     文書のさまざまな構造や属性を適切に表現・処理可能な枠組みの実現

z     利用者固有の用途への適合

z     インターネットでの情報交換が可能

符号化文字の成功

z     とにかく文字を計算機で扱えるようになった

y     いろんな処理の基盤を提供した

z     作成、加工、転送等が比較的容易

z     情報化社会の基盤技術

符号化文字

英語圏の場合

z     他の文字圏に対する優位性

y     文字化けしにくい

y     十分な表現力

y     処理の容易な文字表現

y     技術の蓄積

z     さまざまな情報の電子化に成功

日本語処理における問題点

z     検索

z     置換

z     ソート

z     文字表現

z     表示

 

 

符号化文字の問題点

z     各符号位置の意味の定義を文字符号が引き受ける

y     文字符号の作成、変更、普及のためのコストが甚大

z     文字符号にない文字や適合しない文字を扱うのが困難

文書の諸構造

z    

y    

x    

  
  
  字

z     字、行、段、頁など見かけ上の単位も

字も構造を持っている

z     漢字における部首や旁(意符、音符)など

z     ハングルにおける字母と音節

z     タイ文字やラオ文字等における音節(子音)字と母音字の結合

z     インド系諸文字における複雑な結合

z     ラテン文字におけるアクセント記号の付加

z     etc…

従来の技術

z     符号化文字の世界

z     イメージ・データの世界

要求される技術

z     文字の属性(意味)を扱うための技術

z     従来の符号化文字も利用可能

z     (符号化)文字以外の情報と符号化文字の格差を減らす

符号化文字から文字オブジェクトへ

文字オブジェクトの拡張

Multiple Coded Scheme

Multiple Coded Scheme

z     editable entity unit (eeu)

y     文字を抽象化したもの

x     文字符号 = eeu id

y     各種文字符号や各種属性を持つ

x     文字符号を持たない eeu を可能にする

   文字以外の情報
   符号化されていない文字
   文字符号に合わない文字の用法

x     SGML / XML 等の tag 付き文書

x     文字データベースの利用や編集

研究計画

z     XEmacs での内部表現変更実験

z     任意の文字の部分集合を効率的に扱うためのモデル・実装の開発

z     大規模文字データベースを効率的に扱うための技術

z     対象に応じた文書表現の最適化

z     インターネット等での実証実験