一般分下面几步骤:
词法分析->单词(token)列表->语法分析->ast抽象语法树->语义分析(可无可有)->ast抽象语法树->中间字节码(可无可有)->指令集(类似汇编)->虚拟机(解释运行)
在实现词法分析器前,我们先了解一下。什么是字符串、数字、标识符、关键字、运算符、逻辑符等
s test = 2+3*4+"moid"
f(test!=null)
{
testcall(2333)
}
上面伪代码中的s、f、null为关键字(保留字、keyword),test、testcall是标识符(identifier),2、3、4、2333都是数字(number),+、*是运算符(operator),!=为逻辑符,"moid"是字符串(string),其它的{、}、(、)统一为辅助符号
关键字一般正则规则为:a-zA-Z*(大小写开头,不限长度)
例如:
s、ss、sss、w、f、for
标识符:a-zA-Z0-9*(大小写英文开头或开头,中间可包函数字。不限长度)
例如:
a、bb、test、A2222、_aaa、aB3
数字:0-9*(全是数字不限长度)
例如:
1、23、756668566
字符串:'/"-'/"("到"符号内的内容)
例如:
""、"a"、"abc"、'a'、'kjoke'
至于其它的具体看情况,比如+符号。长度为1,规则就是一个“+”(规则主要看自己,比如直接用英文也行。例如原本用符号+的:s test = 2 + 3,用英文plus的话。长度占4,规则就是plus。例如s test = 2 plus 3)
词法分析器要做的事就是从源代码分析出相应的关键字、标识符、字符串然后成一个hash/array列表。下面看个示例
s test = 2+3*4
通过上面示例来说,通过词法分析器分析代码可能会生成类似这样的结构:
{"KEYWORD","s",1}
{"SPACE"," ",1}
{"IDENTIFIER","test",1}
{"SPACE"," ",1}
{"ASSIGN","=",1}
{"SPACE"," ",1}
{"NUMBER",2,1}
{"PLUS","+",1}
{"NUMBER",3,1}
{"MULTIPLY","+",1}
{"NUMBER",4,1}
这种结构类似lua的table/hash/array
{"KEYWORD","s",1},里面有三个元素。
第一个元素:表示类型(就是上面说的标识符、关键字、数字、运算符等)并以大写表示,KEYWORD的小写是keyword。keyword就是表示关键字。
第二个元素:表示具体值(s是属于关键字,所以它的具体值是s。具体值是从源码分析而来的)
第三个元素:表示当前类型值(s)在第几行
剩下的
{"SPACE"," ",1}
{"IDENTIFIER","test",1}
{"SPACE"," ",1}
{"ASSIGN","=",1}
{"SPACE"," ",1}
{"NUMBER",2,1}
{"PLUS","+",1}
{"NUMBER",3,1}
{"MULTIPLY","+",1}
{"NUMBER",4,1}
意思都一样的,NUMBER表示数字、IDENTIFIER表示标识符、SPACE表示空格、PLUS表示+(符号)、MULTIPLY表示*符号
接下来词法分析第二章会用lua来实现词法分析器的,顺便讲解一下词法分析中的状态机