编码的三种大类
ANSI(GBK)
ANSI即为GBK编码以前是GB2312,GBK和UTF8为最常用的编码格式,均无BOM头。BOM头就是文本文件中几个并不表示任何字符的字节。
UTF8编码
UTF8编码有2种,无BOM头和有BOM头2种。
UTF8的BOM头为 0xEF 0xBB 0xBF
Unicode编码
Unicode编码有2种:Ucs-2 Big Endian编码和Ucs-2 Little Endian编码,即大端和小端。这两种编码均为有BOM头的格式。
Unicode大端模式为 0xFE 0xFF
Unicode小端模式为 0xFF 0xFE
ASCII编码
标准ASCII是128个,范围是0x00~0x7F(0000 0000~0111 0000),最高位为0。也有一个扩展ASCII码规则,把最高位也用上了,变成256个,但是这个扩展标准争议很大,没有得到推广,应该以后不会得到推广。因为无论是GBK还是UTF8,如果ASCII字符编码最高位能为1都会造成混乱无法解析。