极简编译原理1——概述和词法分析（上）

起因

最近在leetcode上看到一道题（65.Valid Numuber），然后有人说这道题毫无价值，全都是edge case的判断。。。拜托，“不要在网上哔哔赖赖”，这道题引申出的知识点明明很有价值，因此自己打算写点关于编译原理的相关内容

题目如下：

概述

顾名思义，编译原理是一门把源程序文本转化成可执行程序的科学。

之所以是极简，是因为不会像大学课堂一样剖析的非常细致严谨，面向的对象是非计算机专业的工程师或者已经忘记编译原理知识的工程师，所以点到为止即可。

一般来说，整个编译原理的过程可以大致分为如下几个过程：（以下内容摘抄自陈火旺《程序设计语言编译原理》）

出错处理顾名思义，即用来处理编译过程中的错误。而表格管理，可以大致理解成“缓存”，比如在扫描到一个单词的时候，并不知道这个单词是常量名还是变量名还是过程名等等，需要到之后的阶段才能确认，这个时候就需要用到表格管理

编译过程中的每个阶段，我们以后都会详细阐述，今天我们来介绍“词法分析”相关的内容。

词法分析

我们知道，源程序本身可以看成是一串长长的文本，而把这些文本分成一个个词的过程就是词法分析。

例如，我们有一句源程序if(a > 1) int b12 = 1;，经过词法分析后，能得到if ( a > 1 ) int b12 = 1 ;这几个字

词法分析器设计

那么我们如何实现一个词法分析器呢？通常，我们在写程序前都需要经过一些设计，词法分析器一样不例外。下面我们引入一个概念——状态转换图

下图展示了状态转换图的样子

圆圈表示状态，如图a，共有三个状态
箭弧表示状态转化
箭弧上的字母表示这个转换接收的字符
双圈表示终态，那么相应的就会有初态，在状态图上的表现就为没有射入箭弧的状态
*表示回退一个字符，即不包括刚刚读入的字符

看个例子，上图b：

一开始的时候，程序状态在0态，这个时候，如果输入了一个字母，那么程序就转换到了1态，紧接着，如果输入了一个字母或者数字，程序就还保持1态，直到输入的不是字母或者数字，那么这个状态转换图终止。

回看上述过程，我们可以清楚地看到，这个状态转换图接收了“一个字母+任意多个字母或数字”，也就是说，这个状态转换图可以识别“以字母为首，后面接上任意多个字母或数字”这样的字符串。

那么，图c的功能就很清楚了，它可以识别一个数字。

状态转换图实现

接下来，我们来看状态图如何转换成代码。在此之前，我们对图b稍作修改，从初态加上一个分支。

代码如下：

#include <iostream>
#include <vector>

using namespace std;

bool isCharacter(char c) {
    return (c >= 'a' && c <= 'z') || (c >= 'A' && c <= 'Z');
}

bool isCharOrNum(char c) {
    return isCharacter(c) || (c >= '0' && c <= '9');
}

int main() {
    string src = "6666666 int b12c = 3";
    string result;
    char *ptr = &src[0];
    while (*ptr != '\0') { // 循环读取输入的字符
        if (isCharacter(*ptr)) { // 如果输入的字符是字母，转到状态1
            result += *ptr;
            ptr++;
            while (isCharOrNum(*ptr)) {
                // 如果输入的是字母或数组，回到状态2
                result += *ptr;
                ptr++;
            }
            if (!isCharacter(*ptr) && !isCharOrNum(*ptr)) {
                // 如果输入的是其他，转到状态3，输出扫描出的字符
                cout << result << endl;
                result = "";
                ptr++;
            }
        } else { // 如果输入的字符是其他，转到状态3
            ptr++;
        }
    }
    return 0;
}

从上述代码中，不难看出：

对于不含回路的分支箭弧，用if或者switch-case语句
对于回路箭弧，用循环语句

以上就是把一个状态转换图变成代码的最基本方法

假设我们自己设计了一套语言，有这些单词符号

我们可以轻松得到一个状态转换图，用来识别这个语言所有的单词符号：

现在回到开篇我们提到的leetcode问题

有了状态转换图的帮助，我们就可以轻松解决此题。现在给出状态转换图：

这是从网上找来的图，因为我自己懒得在电脑上画了。大家也可以自己一步步画出状态转换图，大体思路是：

首先，我们通过观察题目可以看出，本题状态转换图应该可以接受以下五种字：

空格(space)
+/-
数字(digit)
点(.)
e

接下来，从初态开始，当接收到一个空格时，还是回到初态；接收到数字时，到1态；接收到点时，到2态；接收到正负号时，到3态；除了空格、数字、点、正负号之外，不接受其他字符。

然后，再仿照初态时的做法，再对1、2、3态可以接收的字符做筛选过滤，以此重复，便可以得到一个状态转换图，但是这样得到的状态转换图和上述给出的图一定不是一样的，这就涉及到状态转换图简化的方法，但是这个方法不在本文中给出，大家有兴趣可以自己去看。同时，这也体现了“同一个问题，可以有不同状态转换图”的特性。

有了状态转换图之后，我们便可以利用上文给出的方法，该换成if/switch-case的地方换成if/switch-case，该换成循环的地方换成循环，虽然可以预见代码可能复杂一些，但是总归是可以觉得问题的

那么有没有什么简单的方法，能让代码编写简单一些呢？

通用方法

我们直接给出方法，该方法需要利用一个二维数组

	空格	+/-	数字	.	e
0	0	3	1	2	-1
1	8	-1	1	4	5
2	-1	-1	4	-1	-1
3	-1	-1	1	2	-1
4	8	-1	4	-1	5
5	-1	6	7	-1	-1
6	-1	-1	7	-1	-1
7	8	-1	7	-1	-1
8	8	-1	-1	-1	-1

首先来解释一下这张二维表格，这张二维表格是由状态图转化而来。第一列是状态编号，第一行是可以接收的字符，表格内容是某个状态接收到了字符之后可以到达的状态。例如，0态接收一个空格还是0态，0态接收一个符号变为1态，0态不能接收e；2态接收一个数字到达4态，2态不接受空格等。我们只需要看着状态图就能很轻松的写出这张表。

知道了这张表的意思，我们来想一下如何使用这张表。这张表用一句话总结就是：一个状态接收一个字符到了另一个状态。那么可想而知，我们就可以循环重复这个动作，从新得到的状态接收新的字符到更新的状态，直到结果为-1或者字符串循环完毕。结果为-1表示当前状态不接受当前字符，也就意味着字符串不符合要求；如果是字符串循环完毕，那我们看结果是否正好落在终态，如果正好落在终态，说明符合要求，不在终态则不符合要求。

有个大体的思想，我们就可以很轻松的转化为代码：

class Solution {
public:
    int checkchar(char c) {
        if (c == ' ') {
            return 0;
        } else if (c == '+' | c == '-') {
            return 1;
        } else if (c >= 48 && c <= 57) {
            return 2;
        } else if (c == '.') {
            return 3;
        } else if (c == 'e') {
            return 4;
        } else {
            return 5;
        }
    }
    
    bool isNumber(string s) {
        if (s.length() == 0) return false;
        
        int8_t machine[9][5] = {{ 0,  3,  1,  2, -1},
                                { 8, -1,  1,  4,  5},
                                {-1, -1,  4, -1, -1},
                                {-1, -1,  1,  2, -1},
                                { 8, -1,  4, -1,  5},
                                {-1,  6,  7, -1, -1},
                                {-1, -1,  7, -1, -1},
                                { 8, -1,  7, -1, -1},
                                { 8, -1, -1, -1, -1}};

        int currentState = 0;
        for (int i = 0; i < s.length(); ++i) {
            char c = s[i];
            int cidentifier = checkchar(c);
            if (cidentifier == 5) {
                return false;
            }

            int nextState = machine[currentState][cidentifier];
            if (nextState == -1) return false;
            currentState = nextState;
        }

        if (currentState == 1 || currentState == 4 || currentState == 7 || currentState == 8) {
            return true;
        }

        return false;
    }
};

以上代码是我在leetcode的答案，所以没有main入口。

这就是一个通用的简单方法，几乎所有的确定有限状态转换图都可以通过一个二维转换表来生成代码。

这一次的文章就到这里，下一篇我们会说一说词法分析中其他的概念和方法，以及看一看正则表达式和词法分析的关系。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,132评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,802评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,566评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,858评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,867评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,695评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,064评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,705评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,915评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,677评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,796评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,432评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,041评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,992评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,223评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,185评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,535评论 2赞 343

	空格	+/-	数字	.	e
0	0	3	1	2	-1
1	8	-1	1	4	5
2	-1	-1	4	-1	-1
3	-1	-1	1	2	-1
4	8	-1	4	-1	5
5	-1	6	7	-1	-1
6	-1	-1	7	-1	-1
7	8	-1	7	-1	-1
8	8	-1	-1	-1	-1

	空格	+/-	数字	.	e
0	0	3	1	2	-1
1	8	-1	1	4	5
2	-1	-1	4	-1	-1
3	-1	-1	1	2	-1
4	8	-1	4	-1	5
5	-1	6	7	-1	-1
6	-1	-1	7	-1	-1
7	8	-1	7	-1	-1
8	8	-1	-1	-1	-1

极简编译原理1——概述和词法分析（上）

起因

概述

词法分析

词法分析器设计

状态转换图实现

通用方法

推荐阅读更多精彩内容

	空格	+/-	数字	.	e
0	0	3	1	2	-1
1	8	-1	1	4	5
2	-1	-1	4	-1	-1
3	-1	-1	1	2	-1
4	8	-1	4	-1	5
5	-1	6	7	-1	-1
6	-1	-1	7	-1	-1
7	8	-1	7	-1	-1
8	8	-1	-1	-1	-1