一个汉字占几个字节?

2025-01-02 07:04:00
推荐回答(5个)
回答1:

这个要看你用的什么编码格式, utf-8:一个汉字可能占用2或更多个字节;GBK,GB2312编码一个汉字占用两个字节;utf-16编码一个汉字至少要占用两个字节。汉字编码是个比较复杂的问题。

“大学基础”这四个字用utf-8存储占用12个字节 。用od -x 命令转换到16进制形式, 可以看到其内在,’000a‘是换行符。 用iconv 命令转换到utf-16, 再次od查看,占用字节变少。有图有真相


回答2:

中文在不同编码是不定长的 2~4个字节。GB2312是由中国国家标准总局1980年发布的,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980。GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,每个汉字及符号以两个字节来表示,但他不够全面。

GB18030,全称《信息技术中文编码字符集》,是中华人民共和国国家标准所规定的变长多字节字符集。GB 18030共收录汉字70,244个。GB 18030采用变长多字节编码,每个字可以由1个、2个或4个字节组成,他也是完全支持Unicode字符集的。



字节

字节是二进制数据的单位。一个字节通常8位长。但是,一些老型号计算机结构使用不同的长度。为了避免混乱,在大多数国际文献中,使用词代替byte。在多数的计算机系统中,一个字节是一个8位长的数据单位,大多数的计算机用一个字节表示一个字符、数字或其他字符。

一个字节也可以表示一系列二进制位。在一些计算机系统中,4个字节代表一个字,这是计算机在执行指令时能够有效处理数据的单位。一些语言描述需要2个字节表示一个字符,这叫做双字节字符集。一些处理器能够处理双字节或单字节指令。

以上内容参考 百度百科-字节

回答3:

这分两个方面:
一是汉字编码(序号码)的字节占用,二是汉字字形存储的字节占用(而汉字字形的存储字节占用又和是点阵汉字或是矢量汉字有关)。
当然,通常指的是前者。早期的dos系统或者windows2000以前的系统是用两个字节来表示汉字编码,后期的操作系统逐步都支持全球文字统一编码(unicode),汉字的编码也许会多于两个字节。

回答4:

2个字节,字母一个

回答5:

一般情况是两个