相关书籍推荐
你如果进到庐山里头,二话不说,蹲下头来,弯下腰,就对着某棵树某棵小草猛研究而不是 说先把庐山的整体脉络跟那研究清楚了,那么你的学习方法肯定效率巨低而且特别痛苦,最重要的还是慢慢地还打击你的积极性,说我的学习怎么那么不happy啊,怎么那么特没劲那,因为你的学习方法错了,大体读明白,先拿来用,用着用着,很多道理你就明白了
- 《编码:隐匿在计算机软硬件背后的语言》
- 《深入理解计算机系统》
- 语言:C JAVA K&R《C程序设计语言》《C Primer Plus》
- 数据结构与算法: -- 毕生的学习 leetCode
- 《Java数据结构与算法》《算法》
- 《算法导论》《计算机程序设计艺术》(难)
- 操作系统:Linux内核源码解析 Linux内核设计与实现 30天自制操作系统
- 网络:机工《TCP/IP详解》卷一 翻译
- 编译原理:机工 龙书 《编译原理》 《编程语言实现模式》马语
- 数据库:SQLite源码 Derby - JDK自带数据库
CPU
CPU的制作过程
- CPU的制作过程 :https://haokan.baidu.com/v?vid=11928468945249380709&pd=bjh&fr=bjhauthor&type=video
- CPU是如何制作的(文字描述)https://www.sohu.com/a/255397866_468626
CPU的原理
- 计算机需要解决的最根本问题:如何代表数字
晶体管是如何工作的:https://haokan.baidu.com/v?vid=16026741635006191272&pd=bjh&fr=bjhauthor&type=video - 晶体管的工作原理:https://www.bilibili.com/video/av47388949?p=2
汇编语言(机器语言)的执行过程
汇编语言的本质:机器语言的助记符 其实它就是机器语言
计算机通电->CPU读取内存中的程序(电信号输入)->时钟发生器不断的震荡通断电->推动CPU内部一步一步的执行(执行多少步取决于指令需要的时钟周期)->计算完成->写回(电信号)->写给显卡输出(sout/图形)
量子计算机
量子比特,同时代表1和0,如果能够实现,计算机计算力得到数以千计的提升
CPU的基本组成
PC->program counter 程序计数器(记录当前指令的位置)
ALU-> Arithmetic & Logic Unit 运算单元
Registers->暂时存储cpu计算所用的数据
CU -> Control Unit 控制单元
MMU -> Memory Management Unit 内存管理单元
Cache
缓存
一致性协议(MESI):https://www.cnblogs.com/z00377750/p/9180644.html
MESI协议中的状态
CPU中每个缓存行(cache line)使用4种状态进行标记(使用额外的两位(bit)表示)
M:被修改(Modified)
该缓存行只被缓存在该CPU的缓存中,并且是被修改过的(dirty),即与主存中的数据不一致,该缓存行中的内存需要在未来的某个时间点(允许其它CPU读取请主存中相应内存之前)写回(write back)主存。
当被写回主存之后,该缓存行的状态会变成独享(exclusive)状态。
E:独享的(Exclusive)
该缓存行只被缓存在该CPU的缓存中,它是未被修改过的,与主内存的数据一致,该状态可以在任何时刻当有其它CPU读取该内存时变成共享状态(shared)。
同样的,它是可以被修改的,状态变为(Modified)被修改的。
S:共享的(Shared)
该状态意味着该缓存行可能被多个CPU缓存,并且缓存行数据与主存一致,如果其中一个缓存行被修改,那么其他的CPU缓存状态变为(Invalid)无效的
I:无效的(Invalid)
该缓存是无效的(可能有其它CPU修改了该缓存行)。
缓存行
缓存行越大,局部性空间效率越高,但是读取效率越低
缓存行越小,局部性空间效率越低,但是读取效率越高
工业实验取舍后,目前来说,多用64字节
缓存行对齐:对于有些特别敏感的数字,会存在线程高竞争的访问,为了保证不发生伪共享,可以使用缓存行对齐的编程方式
- JDK7中,很多采用long padding提高效率
- JDK8,加入了@Contended注解(实验)需要加上:JVM -XX:-RestrictContended
乱序执行
https://preshing.com/20120515/memory-reordering-caught-in-the-act/
禁止乱序
CPU层面:intel->原语(lfence sfence mfence)或者锁总线
JVM层面:8个happens-before原则和4个内存屏障
as-if-serial : 不管硬件什么顺序,单线程执行的结果不变,看上去像是serial
合并写(不重要)
Write Combining Buffer
一般是4个字节
由于ALU速度太快,所以在写入L1的同时,写入一个WC Buffer,满了之后,再直接更新到L2
NUMA
Non Uniform Memory Access
ZGC - NUMA aware
分配内存会优先分配该线程所在CPU的最近内存