一、计算机组成
计算机能用来玩游戏、编辑文本、看视频、科学计算等等,其底层基础皆是算术运算和逻辑运算,主要由3大部分组成,分别是CPU、内存、硬盘,其中CPU是实现计算的核心。
1、先说CPU
CPU想实现运算,则必须有一部件能实现最基础的运算,想运算必须有数据,则必须有暂时保存数据的部件,运算完之后想判断是大于0还是小于0等状态则有存储状态的部件,运算后再运行下一行代码时得知道下一行代码在哪则必须有存储下一行要执行代码的位置的部件,想运行一行代码必须执行多条基本指令,这存储指令又要一个部件,这些部件统称为寄存器,CPU为寄存器的集合。
寄存器只能容纳很小容量几字节的内容,但访问速度特别快,只要1个时钟周期,1GHz频率的CPU的时钟周期为1ns,我的笔记本为8核,每核2.6GHz,则每核的时钟周期是0.4ns。
2、再说内存
正因为寄存器只能存储些临时的一小点数据信息,那其他数据信息就只能存储在靠近CPU的另一个存储器中,这个存储器就是内存。上面所说的数据信息其实包含两部分,一部分是跑代码过程中需要或产生的的数据,一部分是代码本身。
因为计算机只是一堆电路板,一碰到数字就懵逼,但恰好每个晶体管的电路位有通电和不通电两种状态,于是把这两种状态分别表示成1和0,在计算机中只存在1和0。数据信息中的数据可用0和1表示,逢二进一嘛,那非数字像英文字符也能表示,无非大家约定一张查询表呗,8个0或者1能表示256种不同组合,每一种组合去表里查询下其对应的字符就行了,但中文博大精深,常用汉子有3千个之多,不过计算机也能表示,无非就是建一张更大的映射表呗,用16个0或者1来表示2^16种不同组合,有6万多足以表示3千个汉子了,这就是常用的中文编码方式GBK,也是windows系统默认编码方式。
在计算机中最小的单位是字节,一个字节包含八个电路位,上述的GBK编码的中文需要16个电路位,所以在计算机中需要占用2个字节。
把内存中每一个字节从0开始编号,我们只要知道编号就能准确地找到相应内存位置,这个操作被称为寻址。在32位的windows系统中,这32位就表示其用32个电路位来表示内存中的地址,所以最大的内存地址只能是2^32-1(因为从0开始),而4GB的内存所包含的字节数刚好为2^32,所以32位的windows系统电脑只能装最大4G内存,否则无法识别超过4G部分
3、最后说硬盘
因为内存断电后数据就消失,且容量也远远不够满足需要,于是就要用硬盘来永久性地存储大量数据信息,相当与老式的磁带。
硬盘结构如上图,数据都存储在扇区里,总容量=盘面数*磁道数*每个磁道扇区数*扇区容量,从硬盘找到相应数据信息的耗时主要由磁头定位到某个磁道t1,等盘片转到该磁道上所需数据所在的扇区t2两部分组成,买电脑时硬盘的转速越快t2就越小,读取也就越快。
4、存储器层次结构
前面提到说读取寄存器1次只需要1个时钟周期,而读取内存1次要400个时钟周期,读取硬盘1次竟然需要1千万个时钟周期,跟内存差了5个数量级,简直慢得令人发指。所以在CPU运行程序时避免直接从硬盘读取数据,即使要读取也不能傻等着数据返回,不然也太没效率了,而是去运行别的程序,让数据读进去后通知CPU数据到达了,这就引出了异步编程和并发编程。
1)、被读取过的数据在短时间内会被再次读取
2)、被读取过的数据的邻近数据在短时间内会被再次读取
前者是时间局部性原理,后者是空间局部性原理,利用这两个规则的局部性原理又引出了缓存的概念。在寄存器与内存中又引入了3个层级的高速缓存区,读取速度分别在5-20个时钟周期,且容量依次增大,每次CPU读数据都是读取1块,然后把一整块数据缓存到告诉缓存区中,下次又要读的数据如果在这1块中则大大减少了数据读取时间。
上一层次结构利用局部性原理缓存来自下一层次的数据,mybatis持久层缓存、redis缓存、浏览器缓存、数据库预编译sql缓存、nginx静态文件缓存皆是此道理。
二、计算机运行时
双击点开程序时就将数据和代码从硬盘加载入内存,正常运行情况下,CPU从内存中通过系统总线向IO桥请求某一地址数据信息,IO桥通过存储器总线从内存取得某一位置数据信息后返回,如下图蓝色箭头所示:
当CPU所需数据不在内存中时,又通过IO桥接器向磁盘控制器发出请求数据信息命令,利用DMA技术,CPU能继续去执行其他程序运算,磁盘控制器转动磁盘定位磁道找到扇区然后将数据传至内存,又发起一个中断通知CPU数据到达,整个过程如下图蓝色箭头: