京都大学 人文科学研究所 漢字情報研究センター

 

平成16年度漢籍担当職員講習会:

文字コードとテキスト処理の歴史

 

担当: ウィッテルン・クリスティアン

 


符号化方式

国や地域に依存しない符号化方式

国や地域固有の符号化方式

CJKV の符号化方式を比較する

地域

7bit-

8bit エンコーディング

中国 (GB 2312-80)

3A3A

BABA

 

5756

D7D6

台湾 (Big5)

 

BA7E

 

 

A672

日本

3441

B4C1, 8ABF

 

3B7A

BBFA, 8E9A

韓国

7953

F9D3, F7D3

 

6D2E

EDAE, F1AE

北朝鮮

7253

F2D3

 

662F

E6AF

 


国際符号化方式

漢字の表示と符号化 従来の漢字表

略称

簡体字

略称

繁体字

漢字数

GB0

GB 2312-80 (GB 6345.1-86, GB 8565.2-88, ISO-IR-165:1992)

GB1

GB/T 12345-90

6763

GB2

GB 7589-87

GB3

GB/T 13131-91

7237

GB4

GB 7590-87

GB5

GB/T 13132-91

7039

コード

漢字数

GB 13000.1-93 (ISO 10646-1:1993の中国語訳)

20902

GBK (漢字内碼拡展規範, 1995)

21886

コード

漢字数

CCCII (中文資訊交換碼)

75684

Big Five (五大碼)

13053

CNS 11643-1986

13051

CNS 11643-1992

48027+6,831

コード

漢字数

JIS X 0208-1978 (1983, 1990, 1997修訂)

6349+4+2

JIS X 0212-1990

5801

JIS X 0221-1995 (ISO 10646-1:1993の日本語訳)

20902

JIS X 0213-2000

10040

コード

漢字数

KS X 1001:1992

4888

KS X 1002:1991

2856

KPS 9566-97 (北朝鮮)

4653

コード

漢字数

TCVN 5773:1993

2351

TCVN

3311

·        国際基準

国際基準 コード

漢字数

ISO 10646-1:1993 (2000)

20902

Unicode 1.0.0 (October, 1991)

20902

Unicode 2.1.2 (May, 1998)

21204

Unicode 3.0.0 (September, 1999)

27484

Unicode 3.1.0 (March, 2001)

70195

Unicode 3.1.1 (August, 2001)

70195

Unicode 3.2.0 (March, 2002)

70195

Unicode 4.0.0 (April, 2003)

70195

Unicode 4.0.1 (March, 2004)

70195

 


文字コードの簡史

 


地域

規格

漢字数

米国

1844

モールス信号の発明

-

米国

1962

米国規格協会(ANSI)ASCIIコードを規格とする。-> ISO 639 ISV

-

日本

1969

日本工業規格(JIS)が「JIS X 0201」を制定する。漢字はまだ使えなかった。

-

日本

1978

JIS X 0208」を制定する。第一水準・第二水準

6349

中国

1980

中国本土で簡字体をあらわすのに用いられている文字コード、 GB2312」を制定する。 EUC-CN」も同じ文字コード。IANAへの登録名はGB2312 GB=国際標準)

6763

日本

1982

MS-Kanjiコード(「シフトJIS)が三菱電機MULTI16に搭載。

6349

日本

1983

JIS X 0208'78年のコードを改訂する。→新JIS

6353

台湾

ca. 1984

Big5(五大碼)は台湾のIT業界で決められた文字コード。

13053

台湾

1985

「中文資訊交換碼」 (CCCII)が台湾の國字整理小組に制定。

53075

台湾

1986

台湾の中央標準局が「國家標準中文交換碼」(「CNS 11643)を公布、「Big5」の画順と重複字の問題を訂正国家として推定。

13051

国際

1988

ASCII」を「ISO639」に規定。

-

米国

1989

ANSI Z39.64」制定される、特に図書館等に使われている。

15686

日本

1990

JIS X 0208」の改訂版が制定される。

6355

日本

1990

JIS X 0212」が制定される。補助漢字として5801字収録。

5801

国際

1991

(Extended Unix Code) EUCの制定。 このコードによってステートなしで中日韓の文章可能。

-

韓国

1991

KS X 1002」が制定される。

2856

台湾

1992

1986年「CNS 11643 」の拡張版。

48027

国際

1992

Unicode ver1.1が完成。

20902

韓国

1992

KS X 1001」が制定される。

4888

国際

1993

国際標準規格ISO/IEC 10646Unicodeとの同期化を決定、「10646:1993」公布。

20902

中国

1993

GB13000」に「10646:1993」とUnicodeを規定する(+α)GBK(国標拡張)としてエンコード(1995)

21003

ベトナム

1993

TCVN 5773」を規定する。

2351

日本

1995

JIS X 0221」に「10646:1993」を規定する。

 

ベトナム

1993

TCVN 6056」を規定する。

3311

国際

1996

Unicode ver2.0UTF-8が制定される。

 

北朝鮮

1997

KPS 12052-89」が制定される。

4653

日本

1997

JIS X 208」の改訂。→包摂、シフトJISなどに関する規定。

6355

国際

1998

Unicode ver2.1が制定される。

21204

日本

2000

JIS X 0213」を制定する。新たに第三、第四水準の文字を規定。Unicode ver3.0リリース

10040

日本

2000

JIS X 0221」を「10646:2000」に更新。

27484

香港

2001

HKSCS」の 香港拡張字集を制定。

4818

国際

2002

Unicode ver3.2リリース。漢字が大量追加 (CJK拡張B)

70195

国際

2003

Unicode ver4.0リリース。64 (易經の六十四卦)

70259

 

漢字コードの問題点

 

付録 AASCII のコード配列

 

0

1

2

3

4

5

6

7

8

9

A

B

C

D

E

F

0

NUL

SOH

STX

ETX

EOT

ENQ

ACK

BEL

BS

HT

LF

VT

FF

CR

SO

SI

1

DLE

DC1

DC2

DC3

DC4

NAK

SYN

ETB

CAN

EM

SUB

ESC

FS

GS

RS

US

2

SP

!

"

#

$

%

&

'

(

)

*

+

,

-

.

/

3

0

1

2

3

4

5

6

7

8

9

:

;

<

=

>

?

4

@

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

5

P

Q

R

S

T

U

V

W

X

Y

Z

[

_

]

^

_

6

`

a

b

c

d

e

f

g

h

i

j

k

l

m

n

o

7

p

q

r

s

t

u

v

w

x

y

z

{

|

}

`

DEL

 

 


付録 BUnicode 2.0 内台湾の漢字と日本の漢字の取り扱え

1. 全く同意とされれ字

番号

台湾の漢字(Big5)

Unicode

日本の漢字(JIS)

Unicode

1.

kua1 kua3

U+4F89

kua1

U+8A87

2.

yu3

U+4FC1

yu3

U+4FE3

3.

yu2 yu4

U+4FDE

yu2 yu4

U+516A

4.

xia2

U+4FE0

xia2

U+4FA0

5.

ju4 ju1

U+4FF1

ju4 ju1

U+5036

6.

zhi2

U+503C

zhi2

U+5024

7.

tou1

U+5077

tou1

U+5078

8.

nei4

U+5167

nei4

U+5185

9.

cha4

U+524E

cha4 sha1

U+5239

10.

bo1

U+525D

bo1 bao1

U+5265

11.

tun1

U+541E

tun1

U+5451

12.

wu2

U+5433

wu2

U+5449

13.

ji2 ji1

U+5527

ji1 ji2

U+559E

14.

ya1 ya3 e4

U+555E

ya1 ya3 e4

U+5516

15.

qi3

U+555F

qi3

U+5553

16.

yu4

U+55BB

yu4

U+55A9

17.

xu1 shi1

U+5653

xu1

U+5618

18.

nang2 nang1

U+56CA

nang2 nang1

U+56A2

19.

jin3

U+5807

jin3

U+83EB

20.

zeng1

U+589E

zeng1

U+5897

21.

zi3

U+59CA

zi3

U+59C9

22.

yu2

U+5A1B

yu2

U+5A2F

23.

zhi4

U+5BD8

zhi4

U+7F6E

24.

kuan1

U+5BEC

kuan1

U+5BDB

25.

lü3

U+5C62

lü3

U+5C61

26.

dian1

U+5DD4

dian1

U+5DD3

27.

chao2

U+5DE2

chao2

U+5DE3

28.

bang1

U+5E6B

bang1

U+5E47

29.

jiu4

U+5EC4

jiu4

U+5ED0

30.

shi4

U+5F12

shi4

U+5F11

31.

yan4

U+5F65

yan4

U+5F66

32.

de2

U+5FB7

de2

U+5FB3

33.

yue4

U+6085

yue4

U+60A6

34.

hu4

U+6236

hu4

U+6238

35.

pao1

U+62CB

pao1

U+629B

36.

jie1

U+63ED

jie1

U+63B2

37.

sao1

U+6414

sao1

U+63BB

38.

guo2

U+6451

guo2

U+63B4

39.

ji2 ji1

U+64CA

ji2

U+6483

40.

zan3 cuan2

U+6522

zan3 cuan2

U+6505

41.

xuan4 xiong4

U+657B

xiong4

U+5910

42.

wan3

U+665A

wan3

U+6669

43.

ji4

U+66A8

ji4

U+66C1

44.

li4

U+66C6

li4

U+66A6

45.

duo3

U+6735

duo3

U+6736

46.

nai4

U+67F0

nai4 nai3

U+5948

47.

yu2

U+6986

yu2

U+6961

48.

heng2 heng4

U+6A6B

heng2 heng4

U+6A2A

49.

dang3

U+6A94

dang3 dang4

U+6863

50.

bu4

U+6B65

bu4

U+6B69

51.

sui4

U+6B72

sui4

U+6B73

52.

li4

U+6B77

li4

U+6B74

53.

mei3

U+6BCF

mei3

U+6BCE

54.

pi2

U+6BD7

pi2

U+6BD8

55.

she4

U+6D89

she4

U+6E09

56.

lei4

U+6DDA

lei4

U+6D99

57.

ke3

U+6E34

ke3

U+6E07

58.

gai4

U+6E89

gai4

U+6F11

59.

wen1

U+6EAB

wen1

U+6E29

60.

po1

U+6F51

po1

U+6E8C

61.

du2

U+7006

du2

U+6D9C

62.

lai4

U+7028

lai4

U+702C

63.

yan4

U+7130

yan4

U+7114

64.

zhuang4

U+72C0

zhuang4

U+72B6

65.

zi1

U+7386

zi1

U+8332

66.

chan3

U+7522

chan3

U+7523

67.

yu2

U+756C

yu2

U+756D

68.

shou4

U+7626

shou4

U+75E9

69.

lou4

U+763A

lou4 lü2

U+763B

70.

zhong4

U+773E

zhong4

U+8846

71.

dao3

U+79B1

dao3

U+7977

72.

chong2 zhong3 zhong4

U+79CD

zhong3 chong2 zhong4

U+7A2E

73.

hao4

U+79CF

hao4

U+8017

74.

shui4

U+7A05

shui4

U+7A0E

75.

cuan4

U+7BE1

cuan4

U+7C12

76.

li2

U+7BF1

li2

U+7C6C

77.

dan1

U+7C1E

dan1

U+7BAA

78.

yue4

U+7CB5

yue4

U+7CA4

79.

jue2

U+7D55

jue2

U+7D76

80.

lü4

U+7DA0

lü4

U+7DD1

81.

yuan2

U+7DE3

yuan2

U+7E01

82.

qiang3

U+7E48

qiang3 jiang3

U+7E66

83.

ji4 xi4

U+7E6B

xi4 ji4

U+7E4B

84.

kuang4

U+7E8A

kuang4

U+7D4B

85.

lei2

U+7E8D

lei2 lei3

U+7D2F

86.

zuan3

U+7E98

zuan3

U+7E89

87.

bo1

U+7F3D

bo1

U+9262

88.

ping2

U+7F3E

ping2

U+74F6

89.

xian4

U+7FA1

xian4

U+7FA8

90.

tuo1

U+812B

tuo1

U+8131

91.

jiao3 jue2

U+8173

jiao3 jue2

U+811A

92.

li4

U+8354

li4

U+8318

93.

lai2

U+840A

lai2

U+83B1

94.

li4

U+849E

li4

U+8385

95.

jiang3

U+8523

jiang3 jiang1

U+848B

96.

yun2

U+8553

yun2

U+82B8

97.

xun1

U+85B0

xun1

U+85AB

98.

xu1

U+865B

xu1

U+865A

99.

chan2

U+87EC

chan2

U+8749

100.

la4 zha4

U+881F

la4 zha4

U+874B

101.

shuo1 shui4 yue4

U+8AAA

shuo1 shui4 yue4

U+8AAC

102.

lai4

U+8CF4

lai4

U+983C

103.

yan4

U+8D17

yan4

U+8D0B

104.

duo3

U+8EB2

duo3

U+8EB1

105.

qu1

U+8EC0

qu1

U+8EAF

106.

xiang1 xiang4

U+9109

xiang1

U+90F7

107.

jiang4

U+91AC

jiang4

U+91A4

108.

po1 fa1

U+91B1

po1 fa1

U+9197

109.

rui4

U+92B3

rui4

U+92ED

110.

lu4

U+9304

lu4

U+9332

111.

yue4

U+95B1

yue4

U+95B2

112.

ji1

U+96DE

ji1

U+9DC4

113.

ren4

U+97CC

ren4

U+9771

114.

jia2

U+9830

jia2

U+982C

115.

tui2

U+9839

tui2

U+983D

116.

tuo2 duo4

U+99B1

tuo2 duo4

U+99C4

117.

tuo2

U+9A52

tuo2 tan2

U+9A28

118.

bie1

U+9C49

bie1

U+9F08

119.

ou1

U+9DD7

ou1

U+9D0E

120.

jian3

U+9E7C

jian3

U+9E78

121.

qu2 qu1

U+9EB4

qu1 qu2

U+9EB9

122.

mian4

U+9EB5

mian4

U+9EBA

123.

huang2

U+9EC3

huang2

U+9EC4

124.

hei1 hei3

U+9ED1

hei1

U+9ED2

 

2. 一部を同意とされる字

 

番号

台湾の漢字(Big5)

Unicode

日本の漢字(JIS)

Unicode

125.

feng1

U+4E30

feng1

U+8C50

126.

you2 you1

U+4F18

you1

U+512A

127.

bu4

U+4F48

bu4

U+5E03

128.

zhan4

U+4F54

zhan4 zhan1

U+5360

129.

zhi2

U+4F84

zhi2

U+59EA

130.

jia1

U+50A2

jia1

U+5BB6

131.

jing4

U+51C8

jing4

U+6DE8

132.

chuang1 chuang4 qiang1

U+5231

chuang1 chuang4 qiang1

U+524F

133.

xun1

U+52DB

xun1

U+52F3

134.

nian4

U+5344

廿 nian4

U+5EFF

135.

yo1

U+5537

yu2

U+5539

136.

sheng4

U+5723

sheng4

U+8056

137.

du4

U+5992

du4

U+59AC

138.

er3

U+5C12

er3

U+723E

139.

xi4

U+5C6D

xi4

U+5C53

140.

ling2 ling3

U+5CAD

ling3

U+5DBA

141.

yi4

U+5F02

yi4

U+7570

142.

zheng1 zhi3

U+5FB5

zheng1

U+5F81

143.

怀 huai2

U+6000

huai2

U+61F7

144.

yong3

U+607F

yong3

U+6142

145.

pu1

U+6251

pu1

U+64B2

146.

you4 rao3

U+6270

rao3

U+64FE

147.

wang4

U+6722

wang4

U+671B

148.

gou4 jue2

U+6784

gou4 jue2

U+69CB

149.

qi1

U+67D2

qi1 qu4

U+6F06

150.

ju3 gui4

U+67DC

gui4 ju3

U+6AC3

151.

cha2 zha1

U+67E5

cha2 zha1

U+67FB

152.

bei1

U+686E

bei1

U+676F

153.

qi2

U+6B67

qi2

U+5C90

154.

wu1

U+6C59

wu1

U+6C5A

155.

yuan2

U+6C85

yuan2

U+6E90

156.

ping2 beng4

U+6D34

ping2

U+6CD9

157.

wa1

U+6D3C

wa1

U+7AAA

158.

tu2

U+6D82

tu2

U+5857

159.

shi1

U+6EBC

shi1

U+6FD5

160.

hao4

U+6F94

hao4

U+6D69

161.

se4

U+6FC7

se4

U+6F80

162.

li2

U+7055

li2

U+6F13

163.

luan2

U+7064

luan2

U+6B12

164.

zao4

U+7076

zao4

U+7AC8

165.

dun4

U+7096

dun4

U+71C9

166.

zhao4

U+70A4

zhao4

U+7167

167.

ta1

U+7260

ta1

U+5B83

168.

miao4

U+7385

miao4

U+5999

169.

zheng1 zheng4

U+7665

zheng4 zheng1

U+75C7

170.

kun4

U+774F

kun4

U+56F0

171.

que4

U+786E

que4

U+78BA

172.

bian3

U+78A5

bian3 pian1

U+6241

173.

hui4

U+7BF2

hui4

U+5F57

174.

xu1 yu1 yu4

U+7C72

xu1 yu4

U+5401

175.

juan4

U+7F65

juan4

U+7F82

176.

ji2

U+8024

jie4 ji2

U+85C9

177.

yan1

U+80ED

yan1

U+81D9

178.

xi2 la4

U+814A

la4 xi1

U+81D8

179.

chuan2 xiang1

U+8221

chuan2

U+8239

180.

lu3

U+8263

lu3

U+6AD3

181.

jiao1

U+832D

jiao1

U+6912

182.

pu2

U+8386

pu2

U+84B2

183.

hu1

U+8656

hu1

U+547C

184.

tang2

U+8797

tang2

U+87B3

185.

jin1

U+89D4

jin1 jin5

U+65A4

186.

chou2

U+8A76

chou2

U+916C

187.

yan4

U+8C54

yan4

U+8276

188.

kuo4 shi4

U+9002

shi4 kuo4

U+9069

189.

xiu4

U+93FD

xiu4

U+92B9

190.

yan2 yan3 yan4

U+9586

yan2 yan3 yan4

U+95BB

191.

ban3

U+95C6

ban3

U+677F

192.

keng1

U+962C

keng1

U+5751

193.

gai1

U+9654

gai1

U+5793

194.

gua1

U+98B3

gua1

U+522E

195.

hu2

U+9B0D

hu2

U+80E1

196.

pang2

U+9F90

pang2

U+5396