基于LLVM的编译原理简明教程 (2) - 词法与语法分析初步

递归 - 词法分析与语法分析的分界

一般来说，决定词法分析和语法分析的界限是是否需要递归。
词法分析是将输入的符号流转换成一个个独立的token。比如说，996是个数值型或者更精确一些整型的token。
这个token解析的过程，它前面是什么符号，后面是什么符号，完全没有关系。
token也不存在递归的可能性，token之间相互独立，不可能是嵌套的关系。
所以，词法分析可以用正则表达式来实现。只要一个串符合[0-9]+，我们就可以确定地认为，这是一个整数。
词法分析可以从左到右，完全线性的方式实现。它不需要树的结构，自然没有递归的需求。

而语法分析就有不同，比如一个表达式，它可能是"7 * 24"，也可能是"(8+1) * 5"，或者更复杂的组合。这样的表达式就需要用一棵树的结构来表示。
比如我们这样定义表达式：

表达式 = 数字
表达式 = 表达式 + 表达式
表达式 = 表达式 - 表达式

这样，表达式"1+2+3+4"就可以表示成下图这样的一棵树：

statement

自顶向下和自底向上

针对上面的图，我们有两种分析的办法，一种是自顶向下，一种是自底向上。

为了大家看起来方便，我们不妨把上面的式子改成前缀表达式：

表达式 = 数字
表达式 = + 表达式表达式
表达式 = - 表达式表达式

自顶向下就是，先扫描到一个"+"的token，然后分别对它后面的两个token进行分析。第一个token是数字，不需要递归了。然后去看第二个表达式，发现还是一个"+"，于是递归去分析+，以此类推。

总结起来，自顶向下的思想是，先预测是个什么，然后按照期待去找下一个token。

而自底向上的思想不是这样，它是从左到右把token都读进来，然后去尝试找目前已经读进来的token们符合哪个式子的定义。
以上面的例子为例：
第一步，读到"+" 不符合上面三个式子的任何一个，继续向右读token。这个过程叫做shift，中文译成“移进”。
第二步，"+ 1"，数字1匹配了第一条，变成+ 表达式，不能继续匹配了，继续读token
第三步，"+ 表达式 +"，什么鬼，不匹配，继续读。
...
第五步，读到"+ 表达式 + 表达式 +"，还是找不到可以匹配的式子，继续向右读。
...
第七步，读到"+ 表达式 + 表达式 + 表达式 4"，4匹配了第一条，变成表达式， "+ 表达式表达式"匹配了第二条，也变成表达式。这种操作叫做“归约”-reduce。这一步归约了"+ 3 4"
第八步，归约"+2 表达式"
第九步，归约"+1 表达式"

LR分析器

自底向上的方法的重要方法是LR方法，LR分析器的构造一般如下图所示：

LR分析

LR分析器是以一个状态机的方向来运作的。
这其中有两个重要的表：

一个是主要处理移进的Action表
另一个是主要处理归约的Goto表

Action表的输入有两项：

一是当前的状态，从状态栈顶可以取到；
另一个是输入符号，可以从输入串中取得。

Action表的输出有4种情况：

移进：这时候输出一个移进后的新状态。输入符号和新状态压入栈
归约：这时候输出一个归约的表达式。栈中的符号串，包括输入符号和状态，被替换成归约后的新符号串。这时候的要变成的状态就要去Goto表中去查询。输入为归约后的新符号串，也就是产生式的左端，与这个符号串左边的上一个状态，查出来之后，就是最新的状态
接受：说明一次文法解析已经完成，可以输出语法分析树了
出错：走到了两个表中查不到的状态

我们看一个龙书上的例子，构造含有二元运算符+和*的算术表达式的文法：

1. E -> E + T
2. E -> T
3. T -> T * F
4. T -> F
5. F -> (E)
6. F -> id

我把龙书上用符号表示的表用文字标注上颜色，使大家更加容易记忆和理解。
对应的action表如下：

action table

goto表如下：

goto table

下面我们尝试分析一下"id * id $".

初始状态是0. 输入为id. 我们查0行id列的action表，是将id移进栈，同时，状态栈顶转为5. 完成这一步后，栈中内容[0 id 5]
状态5，输入为。查action表5行列，是使用公式6(F->id)进行归约。此时，状态5和id输入，都被从栈中归约掉，变成F。这时的栈为[0 F]，因为产生了归约，所以要再去查goto表，根据目前栈中的值，去查0行F列，查到操作是转到状态3. 于是将3压入栈中，现在栈中的值是[0 F 3]
状态3下，还是遇到刚才的输入“*”。查action表，要做的是使用公式4(T->F)来归约。同样，F和状态3出栈，T入栈。现在栈中的内容是[0 T]，又产生了归约，于是再查goto表，0行T列是转到状态2. 现在栈中的值是[0 T 2]
状态2下，刚才输入的还在，继续查表。action表的2行列是移进，下一状态是7。终于把这个*移进去了。现在的栈中的内容是：[0 T 2 * 7]
状态7下，遇到id。查action表，7行id列，移进，下一状态是5. 现在栈中内容为：[0 T 2 * 7 id 5]
状态5下，遇到结束符$。查action表，5行$列，归约，使用公式6(F->id). id和状态5出栈，F入栈。现在的栈是[0 T 2 * 7 F]，再去goto表中查7行F列，状态为10。这一步的最终栈是：[0 T 2 * 7 F 10]
状态10下，输入还是$。查action表，10行$列：使用公式3(T->T*F)归约。请注意，除去状态不计的话，[0 T 2 * 7 F 10]的值正是[T * F]，于是将[T 2 * 7 F 10]全部出栈，将T入栈。归约之后再查goto表，[0 T]，查0行T列，状态是2. 这一步最终栈结果：[0 T 2]
状态2下，输入还是$。查action表，归约，使用公式2(E -> T). T和2出栈，E入栈。现在的栈为[0 E]，再查goto表，0行E列，状态为1。这一步最终结果是[0 E 1]
状态1下，输入仍然是$没变。查action表，1行$列，接受，解析成功！

下面的问题就变成如何能够构造action表和goto表。LR下面的不同方法，就是如何生成这两张表的过程。

子集构造算法

子集构造算法是将不确定的有穷自动机NFA转换成确定的有穷自动机的算法。

从不确定的有穷自动机转换成确定的有穷自动机的基本思想是将确定有穷自动机的一个状态对应于不确定有穷自动机的一个状态集合。

子集构造算法

状态集合初值为初始状态的空闭包(ε-closure)，且不作标记
while (状态集合中还有未标记的状态T){
    标记这个状态T;
    for 每个输入符号a in 输入集合 {
        U = 空闭包(move(T,a));
        if(U不在状态集合中){
            U添加到状态集合中;
            U的状态为未标记;
        }
        Dtran[T,a]=U;
    }
}

其中，构造子集算法使用到了求空闭包(ε-closure)的算法。

求ε-closure的算法用人话讲就是，从起点或者起点的集合，计算出走ε路径可以到达的所有状态。我们可以把a,b这些值理解为大于0的权值，而ε为权值为0. 求ε闭包的算法就是求从指定起点的权值之和为0的所有路径的集合。

求ε-closure空闭包的算法

将T中所有的状态压入栈中; //这是所有的起点的集合
空闭包集合初始化为T; //清空栈
while (栈不空){
    栈顶元素t弹出栈; //取一个起点出来
    for 状态u in 从t到u有一条标记为ε的边{ //起点和状态之间有ε的边
        if (u不在空闭包集合中){
            将u添加到空闭包集合中; //u是符合条件的值
            将u压入栈中; //如果u下面还可以继续传导，后面还可以有ε的边
        }
    }
}

我们看下面的龙书上的例子：

epsilon-closure

ε-closure(0)就是从0开始距离为ε的所有状态，直接跟0相连的有1和7。1又可以通达2，4. 所以ε-closure(0)为{0,1,2,4,7}

下面我们开始应用到子集构造算法的例子中：
初始状态0的空闭包集合为{0,1,2,4,7}，我们用A来表示。
move({0,1,2,4,7},a) = {3,8}。这一步是从{0,1,2,4,7}，指定输入为a时可以到达的状态，move(2,a)=3, move(7,a)=8，其他都不能到达。
ε-closure({3,8})= {1,2,3,4,6,7,8}，用B来表示.
move({1,2,3,4,6,7,8},a)={3,8},跟B重复
于是a的情况完成了，我们再遍历输入为b的情况。
move({0,1,2,4,7},b)={5}
ε-closure({5})={1,2,4,5,6,7} = C
ε-closure(move(B,b))=ε-closure({5,9})={1,2,4,5,6,7,9} = D
ε-closure(move(C,a))=ε-closure({3,8}) = B
ε-closure(move(C,b))=ε-closure({5}) = C
ε-closure(move(D,a))=ε-closure({3,8}) = B
ε-closure(move(D,b))=ε-closure({5}) = C

最后生成的是这样的状态转换图：

state machine

SLR方法

拓广文法

如果文法G的开始符号是S,那么文法G的拓广文法G'是在G的基础上增加一个新的开始符号S'和产生式S->S'。新产生式的目的是用做归约的终点。

闭包运算

闭包是：

初始项目集都是闭包的成员
如果A->α.Bβ在闭包中，且存在产生式B->γ, 若B->.γ不在闭包中，则将其加入闭包。重复直至所有的产生式都加入到闭包中。

例：

E' -> E
E -> E+T | T
T -> T*F | F
F -> (E) | id

closure{[E' -> .E]}包含：

根据规则1，E' -> .E 本身在闭包里
根据规则2，
E -> .E+T
E -> .T
T -> .T*F
T -> .F
F -> .(E)
F -> .id

goto函数

我们终于开始看到如何生成goto函数了。
goto(I,X)函数的定义为A->αX.β的闭包。

例：若I是两个项目的集合{[E'->.E],[E->E.+T]},则goto(I,+)包括：

E -> E + .T
T -> .T + F
T -> .F
F -> .(E)
F -> .id

项目集的构造算法

算法：

C = {closure([S'->.S])};
do{
    for 项目集I in C, 文法符号X in C {
        if(goto(I,X)!=nullptr && inC(goto(I,X))
        C.add(goto(I,X));
    }
}while(还有更多的项目可以加入C);

SLR语法分析表的构造

算法：

构造G'的LR(0)项目集规范族。采用上面介绍的项目集构造算法。C={I0,I1,I2,...}
从Ii构造状态i，它的分析动作确定如下：
2.1. 如果[A->α.aβ]在Ii中，并且 goto(Ii,a)=Ij,则置action[i,a]为"移进j",这里的a必须是终结符
2.2. 如果[A->α.]在Ii中，则对FOLLOW(A)中的所有a，置action[i,a]="归约A->α"，这里的A不能是S'.
2.3. 如果[S'->.S]在Ii中，则置action[i,$]为“接受”
对所有的非终结符A，使用下面的规则构造状态i的goto函数：如果goto(Ii,A)=Ij，则goto[i,A]=j
不能由2和3构造出来的表项都置为出错。

构造规范LR语法分析表

SLR对于某些情况是无法归约的，我们可以通过重新定义项目，把更多的信息并入状态中，变成[A->α.β,a], 其中A->α.β是产生式，a是终结符或$。
这样的对象叫做LR(1)项目。

构造LALR语法分析表

LALR是(look-ahead-LR)的缩写。它的优点是比LR(1)的分析表要小得多。

乔姆斯基的文法分类

我们先看个乔姆斯基文法分类的示例图：

chmosky

类似于我们上面所讲的生成式，可以对应到乔姆斯基的文法分类上。
关于终结符和非终结符，我们就不需要做严谨的数学定义了吧。像数字一样不能推导出其他式子的，就是终结符。像表达式这样可以继续推导的就是非终结符。

乔姆斯基将文法分成4类：

0型文法：这种文法只有一种要求，就是左边的式子里有一个非终结符。直观理解就是，总要有一个能推导的式子啊。
1型文法：在0型的基础上，要求右部的长度比左式长。这样，推导的话可以越推越长，归约的话可以越归约越短。
2型文法：在1型的基础上，要求左部必须为非终结符，不能有终结符。
3型文法：在2型的基础上，左部只能有一个单独的非终结符。而右部更有严格的限制，必须全部是终结符，或者终结符只能连接一个非连接符。

最后编辑于：2017.12.04 03:00:49

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342

基于LLVM的编译原理简明教程 (2) - 词法与语法分析初步

递归 - 词法分析与语法分析的分界

自顶向下和自底向上

LR分析器

子集构造算法

SLR方法

拓广文法

闭包运算

goto函数

项目集的构造算法

SLR语法分析表的构造

构造规范LR语法分析表

构造LALR语法分析表

乔姆斯基的文法分类

推荐阅读更多精彩内容