栈段
对于8086PC机,在编程时,可以根据需要,将组内存单元定义为一个段。我们可以将长度为N(N<=64KB)的一组地址连续、起始地址为16的倍数的内存单元,当作栈空间来用,从而定义了一个栈段。比如,我们将10010H~1001FH这段长度为16 字节的内存空间当作栈来用,以栈的方式进行访问。这段空间就可以称为一个栈段,段地址为1001H,大小为16字节。
将一段内存当作栈段,仅仅是我们在编程时的一种安排, CPU并不会由于这种安排,就在执行push pop 等栈操作指令时自动地将我们定义的栈段当作栈空间来访问。如何使得如push pop 等栈操作指令访问我们定义的栈段呢?就是要将SS:SP指向我们定义的栈段。
我们可以将一段内存定义为一个段,用一个段地址指示段,用偏移地址访问段内的单元。这完全是我们自己的安排。
我们可以用一个段存放数据, 将它定义为“数据段”;
我们可以用一个段存放代码,将它定义为“代码段”;
我们可以用一个段当作栈,将它定义为“栈段”。
若要让CPU按照我们的安排来访问这些段,就要:
对于数据段,将它的段地址放在DS中,用mov、add、 sub等访问内存单元的指令时,CPU就将我们定义的数据段中的内容当作数据来访问;
对于代码段,将它的段地址放在CS中,将段中第一条 指令的偏移地址放在IP中,这样CPU就将执行我们定义的代码段中的指令;
对于栈段,将它的段地址放在SS中,将栈顶单元的偏移地址放在SP中,这样CPU在需要进行栈操作的时候,比如执行push、pop指令等,就将我们定义的栈段当作栈空间来用。
CPU将内存中的某段内容当作代码,是因CS:IP指向了那里: CPU 将某段内存当作栈,是因为SS:SP指向了那里。我们一定要清楚,什么是我们的安排,以及如何让CPU按我们的安排行事。要非常清楚CPU的工作机理,才能在控制CPU按照我们的安排运行的时候做到游刃有余。
将10000H~1001FH安排为代码段,并在里面存储如下代码:
mov ax ,1000H
mov SS, ax
mov sp, 0020H;初始化栈顶
mov ax, cs
mov ds, ax ;设置数据段段地址
mov ax, [0 ]
add ax, [2]
mov bx, [4]
add bx, [6]
push ax
push bx
pop ax
pop bx
设置CS=1000H,IP=0, 这段代码将得到执行。可以看到,在这段代码中,我们又将10000H~1001FH安排为栈段和数据段。10000H~1001FH这段内存,既是代码段,又是栈段和数据段。
一段内存,可以既是代码的存储空间,又是数据的存储空间,还可以是栈空间,也可以什么也不是。 关键在于 CPU中寄存器的设置,即CS、IP, SS、 SP, DS的指向。
用机器指令和汇编指令编程
Debug的使用
D命令是查看内存单元的命令,可以用:
“d段地址:偏移地址”的格式查看指定的内存单元的内容
段地址是放在段寄存器中的,在D命令后面直接给出段地址,是Debug提供的一种直观的操作方式。D命令是由Debug执行的,Debug 在执行“d1000:0”这样的命令时,也会先将段地址1000H送入段寄存器中。
Debug是靠一段程序来执行D命令
CPU执行这段程序
CPU在访问内存单元的时候从段寄存器中得到内存单元的段地址。
所以,Debug 在其处理D命令的程序段中,必须有将段地址送入段寄存器的代码。段寄存器有4个: CS、DS、SS、ES, 将段地址送入哪个段寄存器呢?
首先不能是CS,因为CS:IP必须指向Debug处理D命令的代码,也不能是ss,因为SS:SP要指向栈顶。这样只剩下了DS和ES可以选择,访问内存的指令如“mov ax,[0]” 等一般都默认段地址在ds中,所以Debug在执行如“d段地址:偏移地址”这种D命令时,将段地址送入ds中比较方便。
D命令也提供了一 种符合CPU机理的格式: “d段寄存器:偏移地址”,以段寄存器中的数据为段地址SA,列出从SA:偏移地址开始的内存区间中的数据。
用编译和连接程序将Debug和汇编语言编译连接成为可执行文件(如*.exe文件),在操作系统中运行。
一个源程序从写出到执行的过程
图4.1描述了一个汇编语言程序从写出到最终执行的简要过程。
第一步:编写汇编源程序。
使用文本编辑器(如Edit、 记事本等),用汇编语言编写汇编源程序。
这一步工作的结果是产生了一个存储源程序的文本文件。
第二步:对源程序进行编译连接。
使用汇编语言编译程序对源程序文件中的源程序进行编译,产生目标文件;再用连接程序对目标文件进行连接,生成可在操作系统中直接运行的可执行文件。
可执行文件包含两部分内容。
程序(从源程序中的汇编指令翻译过来的机器码)和数据(源程序中定义的9数据)
相关的描述信息(比如,程序有多大、要占用多少内存空间等)
这一步工作的结果:产生了一个可在操作系统中运行的可执行文件。
第三步:执行可执行文件中的程序。
在操作系统中,执行可执行文件中的程序。
操作系统依照可执行文件中的描述信息,将可执行文件中的机器码和数据加载入内存,并进行相关的初始化(比如设置CS:IP指向第一条要执行的指令), 然后由CPU执行程序
伪指令
在汇编语言源程序中,包含两种指令,一种是汇编指令,一种是伪指令。 汇编指令是有对应的机器码的指令,可以被编译为机器指令,最终为CPU所执行。而伪指令没有对应的机器指令,最终不被CPU所执行。那么谁来执行伪指令呢?伪指令是由编译器来执行的指令,编译器根据伪指令来进行相关的编译工作。
程序4.1中出现了3种伪指令。
XXX segment
:
:
XXX ends
segment和ends是对成对使用的伪指令,这是在写可被编译器编译的汇编程序时,必须要用到的一对伪指令。 segment 和ends的功能是定义一个段, segment 说明一个段开始,ends 说明一个段结束。一个段必须有一个名称来标识,使用格式为:
段名segment
:
段名ends
比如,程序4.1中的:
codesg segment ;定义一个段,段的名称为“codesg",这个段从此开始
:
codesg ends ;名称为“codesg"的段到此结束
一个汇编程序是由多个段组成的,这些段被用来存放代码、数据或当作栈空间来使用。我们在前面的课程中所讲解的段的概念,在汇编源程序中得到了应用与体现,一个源程序中所有将被计算机所处理的信息:指令、数据、栈, 被划分到了不同的段中。
一个有意义的汇编程序中至少要有一个段,这个段用 来存放代码。
程序4.1中,在codesg segment和codesg ends 之间写的汇编指令是这个段中存放的内容,这是一个代码段
end
end是一个汇编程序的结束标记,编译器在编译汇编程序的过程中,如果碰到了伪指令end,就结束对源程序的编译。所以,在我们写程序的时候,如果程序写完了,要在结尾处加上伪指令end.否则,编译器在编译程序时,无法知道程序在何处结束。
ends 是和segment成对使用的,标记一个段的结束,ends的含义可理解为“end segment"。我们这里讲的end的作用是标记整个程序的结束。
assume
这条伪指令的含义为“假设”。它假设某一段寄存器和程序中的某一个用segment...ends定义的段相关联。通过assume说明这种关联,在需要的情况下,编译程序可以将段寄存器和某一个具体的段相联系。assume并不是一条非要深入理解不可的伪指令,以后我们编程时,记着用assume将有特定用途的段和相关的段寄存器关联起来
比如,在程序4.1中,我们用codesg segment ....codesg ends 定义了一个名为codseg的段,在这个段中存放代码,所以这个段是- -个代码段。在程序的开头,用assumecs:codesg将用作代码段的段codesg和CPU中的段寄存器cs联系起来。
源程序中的“程序”
用汇编语言写的源程序,包括伪指令和汇编指令,我们编程的最终目的是让计算机完成一定的任务。源程序中的汇编指令组成了最终由计算机执行的程序,而源程序中的伪指令是由编译器来处理的,它们并不实现我们编程的最终目的。这里所说的程序就是指源程序中最终由计算机执行、处理的指令或数据。
注意,以后可以将源程序文件中的所有内容称为源程序,将源程序中最终由计算机执行、处理的指令或数据,称为程序。程序最先以汇编指令的形式存在源程序中,经编译、连接后转变为机器码,存储在可执行文件中。这个过程如图4.2所示。
标号
汇编源程序中,除了汇编指令和伪指令外,还有一些标号,比如“codesg” 。一个标号指代了一个地址。比如codesg在segment的前面,作为一个段的名称,这个段的名称最终将被编译、连接程序处理为一个段的段地址。
程序的结构
通过直接在Debug 中写入汇编指令来写汇编程序,对于十分简短的程序这样做的确方便。可对于大一些的程序,就不能如此了。我们需要写出能让编译器进行编译的源程序,这样的源程序应该具备起码的结构。
源程序是由一些段构成的。我们可以在这些段中存放代码、数据、或将某个段当作栈空间。
程序返回
我们的程序最先以汇编指令的形式存在源程序中,经编译、连接后转变为机器码,存储在可执行文件中,那么,它怎样得到运行呢?
我们在DOS(一个单任务操作系统)的基础上,简单地讨论一下这个问题。
一个程序P2在可执行文件中,则必须有一个正在运行的程序P1,将P2从可执行文件中加载入内存后,将CPU的控制权交给P2, P2才能得以运行。P2开始运行后,P1暂停运行。
而当P2运行完毕后,应该将CPU的控制权交还给使它得以运行的程序P1,此后,P1继续运行。
一个程序结束后,将CPU的控制权交还给使它得以运行的程序,我们称这个过程为:程序返回。那么,如何返回呢?应该在程序的末尾添加返回的程序段。
我们已经遇到了几个和结束相关的内容:段结束、程序结束、程序返回。表4.1 展示了它们的区别。
语法错误和逻辑错误
一般说来, 程序在编译时被编译器发现的错误是语法错误,
在源程序编译后,在运行时发生的错误是逻辑错误。语法错误容易发现,也容易解决。而逻辑错误通常不容易被发现。
编辑源程序
编译
运行masm后,首先显示出些版本信息,然后提示输入将要被编译的源程序文件的名称。注意,“[.ASM]” 提示我们,默认的文件扩展名是asm, 比如,要编译的源程序文件名是“p1.asm”,只要在这里输入“p1"即可。可如果源程序文件不是以asm为扩展名的话,就要输入它的全名。比如源程序文件名为“p1.txt",就要输入全名。
在输入源程序文件名的时候一定要指明它所在的路径。如果文件就在当前路径下,只输入文件名就可以,可如果文件在其他的目录中,则要输入路径,比如,要编译的文件p1.txt在“c:\windows\desktop"下, 则要输入“c:\windows\desktop\p1.txt"。
输入要编译的源程序文件名后,按Enter键,屏幕显示如图
在输入源程序文件名后,程序继续提示我们输入要编译出的目标文件的名称,目标文件是我们对一个源程序进行编译要得到的最终结果。注意屏幕上的显示:“[1.OBJ]”,因为我们已经输入了源程序文件名为1.asm, 则编译程序默认要输出的目标文件名为l.obj, 所以可以不必再另行指定文件名。直接按Enter 键,编译程序将在当前的目录下,生成1.obj 文件。
如果编译的过程中出现错误,那么将得不到目标文件。一般来 说,有两类错误使我们得不到所期望的目标文件:
程序中有“Severe Errors”;
找不到所给出的源程序文件。
注意,在编译的过程中,我们提供了一个输入,即源程序文件。最多可以得到3个输出:目标文件(obj)列表文件(lst)、交叉引用文件(.crf), 这3个输出文件中,目标文件是我们最终要得到的结果,而另外两个只是中间结果,可以让编译器 忽略对它们的生成。
连接
在对源程序进行编译得到目标文件后,我们需要对目标文件进行连接,从而得到可执行文件。
连接的作用有以下几个。
(1)当源程序很大时, 可以将它分为多个源程序文件来编译,每个源程序编译成为目标文件后,再用连接程序将它们连接到一起,生成一个可执行文件;
(2)程序中调用了某个库文件中的子程序,需要将这个库文件和该程序生成的目标文件连接到一起,生成一个可执行文件;
(3)一个源程序编译后,得到了存有机器码的目标文件,目标文件中的有些内容还不能直接用来生成可执行文件,连接程序将这些内容处理为最终的可执行信息。所以,在只有一个源程序文件,而又不需要调用某个库中的子程序的情况下,也必须用连接程序对目标文件进行处理,生成可执行文件。
注意,对于连接的过程,可执行文件是我们要得到的最终结果。