汉字编码
相对西文字符集的定义,汉字编码字符集的定义有两大困难:选字难和排序难。选字难是因为汉字字量大(包括简体字、繁体字、日本汉字、韩国汉字),而字符集空间有限。排序难是因为汉字可有多种排序标准(拼音、部首、笔画等等),而具体到每一种排序标准,往往还存在不少争议,如对一些汉字还没有一致认可的笔画数。
二、汉字编码国家标准
1984年“全国计算机与信息处理标准化技术委员会”提出编码字符集的繁体字和简体字对应编码的原则,并做出了制定六个信息交换用汉字编码字符集的计划。这六个集分别命名为基本集、第一辅助集(辅一)、第二辅助集(辅二)、第三辅助集(辅三)、第四辅助集(辅四)、第五辅助集(辅五)。其中,基本集、辅二集、辅四集是简体字集,辅一集、辅三集、辅五集分别是基本集、辅二集、辅四集的繁体字映射集,且简/繁字在两个字符集中同码(个别简/繁关系为一对多的汉字除外)。
国家标准GB 2312-80《信息交换用汉字编码字符集基本集》已于1980年发布使用,它奠定了我国中文信息处理技术的发展。
这六个集均采用双七位编码方式,但为了避开ASCII表中的控制码,每个七位只选取了94个编码位置。所以每张代码表分94个区和94个位。其中前15区作为拼音文字及符号区或保留未用,16区到94区为汉字区。
1. 基本集GB 2312-80
收入汉字信息交换用的基本图形字符,采用一字一码的原则,具体包括:一般符号,序号,数字,拉丁字母,日文假名,希腊字母,俄文字母,汉语拼音符号,汉语注音字母及简化汉字6763个。总计7445个图形字符。
2. 其他五个辅助汉字集
辅二集(GB 7589-87)和辅四集(GB 7590-87)是作为基本集的补充而编制的,均收通用规范的简体汉字,分别收字7237和7039个,都以部首为序排列,部首次序按笔画数排列,同部首字按部首以外的笔画数排列,同笔画数的字以笔形顺序(横、直、撇、点、折)为序。
这两个集都不收异体字,共约有4200多个字是经过类推简化得到的,提高了整个字符集的规范性,但降低了字符集的实用性。
比较而言辅二集所收汉字具有较高通用性和实用性。
辅一集(GB 12345-90)已于1990年发布,是与基本集对应的繁体字集,共收图形字符7583个,其中前15区除收集了GB 2312中前15区内收的全部字符外,又增收了35个竖排标点符号和汉语拼音符号。从16区至91区共收6866个繁体汉字。一级汉字数和二级汉字数都与GB2312相同,另有103个繁体字是属于简/繁为一对多的字。对于简/繁一对多的情况,则选一个最通用的繁体字码置于与基本集中该字相对应的码位,其余的则按拼音序编码于88和89区。
辅三集和辅五集分别是辅二集和辅四集的一一对应的繁体字符集,比辅二集和辅四集中的字有更多的使用机会。
三、中国台湾定义的汉字字符集
台湾、香港等地使用的汉字是繁体字,台湾已经定义的汉字字符集只收繁体字。
在台湾,用于中文信息交换的标准有:
CCCII:中文资讯交换码
CNS 11643:通用汉字标准交换码
其中,CNS 11643实用面更广,使用者更多。