一条主线:跟踪hello程序的生命周期来开始对系统的学习。
1 信息的表示
hello.c的表示方法说明了一个基本思想:系统中所有的信息——包括磁盘文件、存储器中的程序、存储器中存放的用户数据以及网络上穿传送的数据,都是由一串位表示的。区分不同数据对象的唯一方法就是我们读到这些数据对象时的上下文。
数字的机器表示方式与实际的整数和实数是不同的,它们是对真值的有限近似值,有时候会有意想不到的行为表现。
2 编译
1)预处理阶段
预处理器cpp根据#开头的命令,修改原始C程序。
2)编译阶段
编译器ccl将源程序编译成汇编语言
3)汇编阶段
汇编器as将汇编语言翻译成机器语言指令,把这些指定打包成可重定位目标程序
4)链接阶段
将需要的库函数链接进来,形成最终的可执行目标文件
了解编译系统的好处:
1)优化程序性能
2)理解链接时出现的错误
3)避免安全漏洞
3 执行
shell加载hello程序
3.1 系统的硬件组成
a.总线
总线携带信息字节并负责在各个部件间传递
b.I/O设备
用户输入:键盘、鼠标
用户输出:显示器
存储:磁盘驱动器(hello程序位置)
每个I/O设备都通过一个控制器或适配器与I/O总线相连。控制器和适配器之间主要区别在于它们的封装方式。控制器是置于I/O设备本身的或者主板上的芯片组,而适配器则是一块插在主板插卡槽上的卡。总之,它们的主要功能都是在I/O总线和设备之间传递信息。
c.主存
在处理器执行程序时,用来存放程序和程序处理的数据。DRAM
d.处理器
CPU,是解释(执行)存储在主存中指令的引擎。
核心是PC(程序计数器),任何时候,PC都指向主存中某条机器语言指令。
处理器从PC指向的主存处读取指令,解释指令中的位,执行该指令指示的简单操作,然后更新PC,使其指向下一条指令。
CPU在指令的要求下可能执行以下操作:
- 加载:把一个字节或者字从主存复制到寄存器,以覆盖寄存器原来的内容
- 存储:把一个字节或者字从寄存器复制到主存的某个位置,以覆盖原来的内容
- 操作:把两个寄存器的内容复制到ALU,ALU对这两个字做算术操作,并将结果存放到一个寄存器,以覆盖寄存器原来的内容
- 调整:从指令本身抽取一个字,并将这个字复制到PC中,以覆盖PC中原来的值
处理器看上去知识它的指令集结构的简单实现,但是实际上现代处理器使用了非常复杂的机制来加速程序的执行。可以区分处理器的指令集结构和微体系结构:
- 指令集结构:描述的是每条机器代码指令的效果
- 微体系结构:描述的是处理器实际上是如何实现的
3.2 运行hello程序
step1.shell输入"./hello"
shell将字符逐一读入寄存器,再把它放到主存中
step2.敲入回车后
shell执行一系列指令来加载可执行的hello文件,将hello目标文件中的代码和数据从磁盘复制到主存。
利用DMA(直接存储器存储)技术,数据可以不通过处理器直接从磁盘到达主存。
step3.加载到主存后的执行
hello中的代码和数据被加载主存,处理器就开始执行hello程序的main程序中的机器语言指令。
这些指令将“hello, world\n”字符串字节从主存复制到寄存器文件,再从寄存器文件中复制到显示设备,最终显示到屏幕上。
4 存储
hello程序指令:磁盘->主存->处理器
hello程序数据:磁盘->主存->显示设备 (中间省略了寄存器)
这些复制工作就是开销,因此,系统设计者的一个主要目标就是使这些复制操作尽可能快地完成。
针对处理器与主存之间的差异(1000倍速度),加入高速缓存(SRAM),存放处理器近期可能会需要的信息。
存储器的层次结构(存储器层次结构的主要思想是某一层的存储器作为低一层存储器的高速缓存):
5 操作系统管理硬件
shell和hello程序都没有直接访问键盘、显示器、磁盘或者主存。取而代之,它们依靠操作系统提供的服务。
操作系统有两个基本功能:
1)防止硬件被失控的应用程序滥用
2)向应用程序提供简单一致的机制来控制复杂而又通常大相径庭的低级硬件设备
操作系统通过几个基本的抽象概念(进程、虚拟存储器、文件)来时间这两个功能。
1)文件是对I/O设备的抽象
2)虚拟存储器是对主存和磁盘I/O设备的抽象表示
3)进程则是对处理器、主存和I/O设备的抽象表示
5.1 进程和线程
进程是操作系统对一个正在运行的程序的一种抽象。
操作系统实现进程的交错执行的机制成为上下文切换,操作系统保持跟踪进行运行所需的所有状态信息(上下文)。
shell进程和hello进程的运行场景:
step1.只有shell进程,输入命令
step2.shell进行系统调用,来执行请求,系统调用会将控制权传递给操作系统,操作系统保存shell的上下文,创建一个新的hello进程及其上下文
step3.控制权传递给hello进程
step4.hello进程中之后,操作系统恢复shell进程的上下文,并将控制权传回给shell,shell将继续等待下一个命令行的输入
线程:线程之间比进程之间更容易实现共享数据,因此一般更高效。
5.2 虚拟存储器
虚拟存储器为每个进程提供一个假象(虚拟地址空间),即每个进程都在独占地使用主存。
基本思想:把一个进程虚拟存储器的内容存储在磁盘上,然后用主存作为磁盘的高速缓存
从低地址往上,进程的各个区分别是:
1)程序代码和数据。代码从同一固定位置开始,紧接着是全局变量
2)堆。代码和数据区后紧随着运行时堆。
3)共享库。大约在地址空间的中间一部分是一块用来存放像C标准库和数学库的代码和数据的区域。
4)栈。位于用户虚拟地址空间顶部的是用户栈,编译器用它来实现函数调用。
5)内核虚拟存储器。内核总是驻留在内存中,地址空间顶部的区域是为内核保留。不允许应用程序读写这个区域的内容或者直接调用内核代码定义的函数。
5.3 文件
文件就是字节序列,仅此而已。
每个I/O设备,包括磁盘、键盘、显示器,甚至网络,都可以视为文件。
6 通信(网络也是一种I/O设备)
例如使用telnet应用在一个远程主机上运行hello程序。
7 几个重要的主题
7.1 并发和并行
计算机发展历史中,有两个需求是驱动进步的持续动力:
- 我们想要计算机做的更多
- 我们想要计算机运行得更快
并发:指一个同时具有多个活动的系统
并行:用并发使一个系统运行更快
1)线程级并行
多处理器的使用要求程序以多线程的方式来书写。
2)指令级并行(流水线、超标量)
现代处理器可以同时执行多条指令的属性成为指令级并行
3)单指令、多数据并行(向量数据类型)
许多现代处理器拥有特殊的硬件,运行一条指令产生多个可以并行执行的操作:单指令、多数据(SIMD)。提供SIMD指令是为了提高处理影像、声音和视频数据应用的执行速度。