在计算机中所有的数据都被存储为一连串的二进制信息(0和1)。在这里我将浅谈这些二进制信息是如何表示计算机中的字符和数字的。
第一步:如何存储0和1?
在计算机的内存里有许多存储0和1设置。
如图所示,每一个圆圈是一个电池,当要存储一串二进制信息时,计算机会先选择一列进行充电, 然后利用横向和纵向两条线确定当前要存储信息的位置。从这一列的第一个开始递归的选择,如果这一个电池代表1就进行充电(在图中显示红色),代表0就不充电(在图中显示白色)。
这样就可以在计算机中存储二进制数了。
第二步:如何存储数字?
十进制换算成二进制
37 = 100101
0.75 = 0.11
负数会以补码的形式存储
小数会以浮点数的形式存储
具体换算方法是数学问题,请自行了解
第三步:如何存储字符
字符是从从存储数字的思路延伸过来的。
- 外国人最开始制订了一个ASCII 美国信息交换标准代码
如果你想储存 a,那么就储存 97(10) 对应的二进制
a -> 0110 0001(2) -> 61(16)
如果你想储存 字符1,那么就储存 49(10) 对应的二进制
1 -> 0011 0001(2) -> 31(16)
- 存储中文
我们国家自己制订了一个存储中文的表
GB 2312 中国国家标准简体中文字符集
GB2312 共收录 6763 个汉字,同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的 682 个字符。
后来为了存储生僻字、繁体字、日语、朝鲜语等,微软推出了 GBK 字符集
统一标准存储所有字符
Unicode 字符集 将全球文字统一到一个表里面,包括中日韩文字、藏文、盲文、楔形文字、 颜文字:-)
、绘文字😂
如何将Unicode存到计算机里?
由于unicode存储有些字符占用内存太大,为了解决这个问题,有了一种字符编码方式——UTF-8。
例如:
- 低效率方式:
a -> 00000000 00000000 00000000 01100001(2) = 0061(16)
你 -> 00000000 00000000 01001111 01100000(2) = 4F60(16) - 高效率方式:
a -> 01100001
你-> 11100100 10111101 10100000
像“a”这种较短的字符(小于七位的),我们可以直接在前面补零表示
像“你”这种长的字符,由于计算机读取时无法弄清楚是存储了一个 由
两个一字节
组成的字符还是一个由两字节
组成的字符,解决方法:我们从高位依次划分6个字符进行分组,直到分出的组不足6个。即:0100 111101 100000
分别在每一组前面补全读取这一串二进制信息的规则,即:11100100 10111101 10100000
1110+0100:111表示计算机需要读取3个字节,每个字节的开头都是10
10+111101、10+100000: 所以后两个分组的开头也补上10,说明是和第一个字节一起的,组成一个字符。