为什么要学习编译器和解释器呢?文中的作者给出的答案有下面几个:
- 为了深入理解计算机是如何工作的:一个显而易见的道理就是,如果你不懂编译器和解释器是如何工作的那么你就不明白计算机是如何工作的
- 编译器和解释器用到的一些原理和编程技巧以及算法在其他地方也可以用到。学习编译器和解释器能够学到并强化这些技巧的运用
- 为了方便日后能编写自己的编程语言或者专用领域的特殊语言
接下来我们就从0开始一步一步的构建自己的解释器。跟着教程先制作一个简单的加法计算器,为了保证简单,这个加法计算器能够解析的表达式需要满足下面几点:
- 目前只支持加法运算
- 目前只支持两个10以内的整数的计算
- 表达式之间不能有空格
- 只能计算一次加法
举一个例子来说,它可以计算诸如"1+2"、"5+6" 这样的表达式,但是不能计算像 "11+20"(必须是10以内)、"1.1+2"(需要两个数都是整数)、"1 + 2"(中间不能有空格)、"1+2+3"(只能计算一次加法)
有了这些限制,我们很容易就能实现出来。
实现的算法
假设我们要计算表达式 5+6
。这里主要的步骤是通过字符串保存表达式,然后通过索引依次访问每个字符,分别找到两个整数和加法运算符,最后实现两个整数相加的操作。
第一步,我们的索引在表达式字符串的开始位置,解析得到当前位置的字符是一个整数,我们给它打上标记,类型为整形,值为5。
第二步,索引向前推进,解析当前位置的字符是一个+
。还是给它打上标记,类型为plus
,值为+
。
第三步,索引继续前进,解析到当前位置的字符是一个整数,我们给它打上标记,类型为整形,值为6
最后一步,根据得到的两个整数以及要执行的算术运算,我们将两个数直接进行相加得到最终结果
具体的代码
首先我们定义这个标记的类型,目前支持整数以及加法的标记
typedef enum e_TokenType
{
CINT = 0, //整型
PLUS //加法运算符
}ETokenType;
// 这里因为只支持10以内的整数,所以表示计算数字的字符只有一个,加上字符串最后的结束标记,字符数组只需要两个即可
typedef struct Token
{
ETokenType type; //类型
char value[2]; //值
}Token, *LPTOKEN;
接着定义一些全局变量来保存算术运算的表达式和当前指针的索引
char* g_pszUserBuf = NULL;
char* g_pPosition = NULL;
接着我们定义一个函数来模拟上述说到的不断解析每一个字符的过程
bool get_next_token(LPTOKEN pToken)
{
char* sz = g_pPosition;
g_pPosition++;
pToken->value[0] = '\0';
if (*sz >= '0' && *sz <= '9')
{
pToken->type = CINT;
pToken->value[0] = *sz;
return true;
}
else if (*sz == '+')
{
pToken->type = PLUS;
pToken->value[0] = *sz;
return true;
}
else
{
pToken->value[0] = '\0';
return false;
}
}
最后我们定义一个函数来执行获取每个标记并最终计算结果的操作
int expr()
{
int val1 = 0, val2 = 0;
Token token = { 0 };
if (get_next_token(&token) && token.type == CINT)
{
val1 = atoi(token.value);
}
else
{
printf("首个字符必须是整数");
return -1;
}
if (get_next_token(&token) && token.type == PLUS)
{
}
else
{
printf("第二个字符必须是操作符,并且当前只支持 + 运算");
return -1;
}
if (get_next_token(&token) && token.type == CINT)
{
val2 = atoi(token.value);
}
printf("%d+%d=%d\n", val1, val2, val1 + val2);
}
在main
函数里面我们只需要建立一个缓冲来保存字符,并且在循环中不断等待用户输入,完成解析并输出结果即可
// 重制当前解析环境
void reset()
{
memset(g_pszUserBuf, 0x00, 16 * sizeof(char));
scanf_s("%s", g_pszUserBuf);
g_pPosition = g_pszUserBuf;
}
int main()
{
g_pszUserBuf = (char*)malloc(16 * sizeof(char));
while (1)
{
printf(">>>");
reset();
if (strcmp(g_pszUserBuf, "exit") == 0)
{
break;
}
expr();
}
return 0;
}
最终执行的结果如下
最后的总结
程序我们已经写完了,你可能觉得这个程序太简单了,只能做这点事情。别着急,后面将会逐步的去完善这个程序。以便它能实现更加复杂的运算。
最后我们来引入一些概念性的东西:
- 我们将输入内容按照一定规则打上的标记被称之为Token
- 上述get_next_token函数体现的将一段字符串分割并打上有意义的标签的过程被称为词法分析。
- 解释器工作的第一步就是将输入的字符串按照一定的规则转换为一系列有意义的标记。完成这个工作的组件被称之为词法分析器,也可以被称为扫描器或者分词器