从数据展示中汉字缺失了解字符编码知识2023-04-10

有人在使用皕杰报表时遇到如下问题：

有些汉字变成了“？”，这是为什么呢？实际上就是你用的字符集里没有这个汉字导致的，要想搞懂这个问题，还得从字符、字符集、字符编码说起。

所谓字符，就是各种文字和符号的总称。

所谓字符集，就是很多字符组成的集合。

所谓编码，就是通过一定的映射规则将字符表示成计算机中的数据以编码和存储。

由于映射规则不同，所以字符的编码不是唯一的，于是就产生了各种各样的字符集，但这些字符集有相通的部分，那就是都兼容ASCII字符集。

ASCII是最基本的英文字符集，是计算机的基础。ASCII中每个字符占用一个字节的后面7位，最前面的1位统一规定为0。在ASCII编码中，共有128个字符，其中0~31 是控制字符如换行回车删除等，32~126 是可打印字符，可以通过键盘输入并且能够显示出来。

下面就学习一下常用的字符集：

一、 [endif]iso8859字符集

iso8859字符集实际上是ASCII码的扩展，称为EASCII（Extended ASCII）。在EASCII中表示的256个字符中，前128字符和ASCII编码表示的字符完全一样，后128个字符由欧洲各个国家或地区定义自己的编码标准。

根据这个规则，就形成了一系列标准：ISO-8859-1、ISO-8859-2、ISO-8859-3、……、ISO-8859-16。这些子标准适用于欧洲不同的国家地区，例如：

ISO8859-1 字符集，也就是Latin-1，是西欧常用字符，包括德法两国的字母。

ISO8859-2 字符集，也称为Latin-2，收集了东欧字符。

ISO8859-3 字符集，也称为Latin-3，收集了南欧字符。

其它具体是哪个国家的标准请自行查询。

二、 [endif]Unicode字符集

Unicode是由Unicode联盟开发的一种字符编码方案，旨在通过对所有人类语言中的字符进行编码，实现跨平台、跨应用程序和跨语言的数据交换。Unicode字符集是一个很大的字符集合，包含了全世界所有的字符。Unicode只是一个字符集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何编码如何存储。于是出现了三种编码规则，分别用1到4个字节，2个字节以及4个字节表示一个字符，对应的编码是utf-8，utf-16，utf-32。

Utf-8是一种针对Unicode的可变长度字符编码规则，又称万国码，用1到4个字节编码Unicode字符。其编码规则为:

1、对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

2、对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

Unicode符号范围 | UTF-8编码方式

UTF字节数 (十六进制) | （二进制）

一个字节 0000 0000-0000 007F | 0xxxxxxx

两个字节 0000 0080-0000 07FF | 110xxxxx 10xxxxxx

三个字节 0000 0800-0000 FFFF | 1110xxxx 10xxxxxx10xxxxxx

四个字节 0001 0000-0010 FFFF | 11110xxx 10xxxxxx10xxxxxx 10xxxxxx

Utf-8编码巧妙地运用开头n位字符表示出是由几个字节组成的编码，0开头的是一个字节编码，11开头的是2个字节编码，111开头是三个字节编码，1111开头是四个字节编码。

utf-16固定用两个字节来表示一个编码。

utf-32固定用四个字节来表示一个编码。

由于这两种编码在报表里比较少使用，这里就不多说明了。

三、 [endif]中文字符集

主要是GB2312、GBK、GB18030字符集，字符集的名称同时也是编码的名称。

1、GB2312

GB2312是我国对ASCll码的扩展，占用两个字节。GB2312编码是第一个汉字编码国家标准，共收录汉字6763个，其中一级汉字3755个，二级汉字3008个。同时，GB2312编码收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

2、GBK

GBK是对GB1212的扩展，GBK 包括了 GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号。

3、GB18030

GB18030采用变长编码，可以是1个字节、2个字节和4个字节。是对GB2312和GBK的扩展，完全兼容两者。

在皕杰报表中如果遇到有的汉字显示不了，并不是报表的问题，一定是你使用的编码中汉字不全造成的。换一个汉字比较全的编码即可，采用utf-8或GB18030基本可以解决中文不全问题。