汉字编码标准有什么区别和联系

GB2312、GBK和GB18030三种汉字编码标准有什么区别和联系？

2024-12-27 14:17:06

推荐回答（1个）

回答1：

汉字编码
相对西文字符集的定义，汉字编码字符集的定义有两大困难：选字难和排序难。选字难是因为汉字字量大(包括简体字、繁体字、日本汉字、韩国汉字)，而字符集空间有限。排序难是因为汉字可有多种排序标准(拼音、部首、笔画等等)，而具体到每一种排序标准，往往还存在不少争议，如对一些汉字还没有一致认可的笔画数。
二、汉字编码国家标准
1984年“全国计算机与信息处理标准化技术委员会”提出编码字符集的繁体字和简体字对应编码的原则，并做出了制定六个信息交换用汉字编码字符集的计划。这六个集分别命名为基本集、第一辅助集(辅一)、第二辅助集(辅二)、第三辅助集(辅三)、第四辅助集(辅四)、第五辅助集(辅五)。其中，基本集、辅二集、辅四集是简体字集，辅一集、辅三集、辅五集分别是基本集、辅二集、辅四集的繁体字映射集，且简/繁字在两个字符集中同码(个别简/繁关系为一对多的汉字除外)。
国家标准GB 2312-80《信息交换用汉字编码字符集基本集》已于1980年发布使用，它奠定了我国中文信息处理技术的发展。
这六个集均采用双七位编码方式，但为了避开ASCII表中的控制码，每个七位只选取了94个编码位置。所以每张代码表分94个区和94个位。其中前15区作为拼音文字及符号区或保留未用，16区到94区为汉字区。
1. 基本集GB 2312-80
收入汉字信息交换用的基本图形字符，采用一字一码的原则，具体包括：一般符号，序号，数字，拉丁字母，日文假名，希腊字母，俄文字母，汉语拼音符号，汉语注音字母及简化汉字6763个。总计7445个图形字符。
2. 其他五个辅助汉字集
辅二集(GB 7589-87)和辅四集(GB 7590-87)是作为基本集的补充而编制的，均收通用规范的简体汉字，分别收字7237和7039个，都以部首为序排列，部首次序按笔画数排列，同部首字按部首以外的笔画数排列，同笔画数的字以笔形顺序(横、直、撇、点、折)为序。
这两个集都不收异体字，共约有4200多个字是经过类推简化得到的，提高了整个字符集的规范性，但降低了字符集的实用性。

比较而言辅二集所收汉字具有较高通用性和实用性。

辅一集(GB 12345-90)已于1990年发布，是与基本集对应的繁体字集，共收图形字符7583个，其中前15区除收集了GB 2312中前15区内收的全部字符外，又增收了35个竖排标点符号和汉语拼音符号。从16区至91区共收6866个繁体汉字。一级汉字数和二级汉字数都与GB2312相同，另有103个繁体字是属于简/繁为一对多的字。对于简/繁一对多的情况，则选一个最通用的繁体字码置于与基本集中该字相对应的码位，其余的则按拼音序编码于88和89区。

辅三集和辅五集分别是辅二集和辅四集的一一对应的繁体字符集，比辅二集和辅四集中的字有更多的使用机会。
三、中国台湾定义的汉字字符集
台湾、香港等地使用的汉字是繁体字，台湾已经定义的汉字字符集只收繁体字。
在台湾，用于中文信息交换的标准有：
CCCII：中文资讯交换码
CNS 11643：通用汉字标准交换码
其中，CNS 11643实用面更广，使用者更多。