前言
这篇文章是为了让新手能够快速全面的上手学习 ANTLR 的词法,语法解析原理以及其特性。因为自己在学习的过程中,Google了很多ANTLR的教程,不过都没能看太懂,很多概念不能理解,对于新手来说,友好度不够。所以有了这篇文章...
那么这篇文章会从词法,语法分析开始聊起,然后到 ANTLR 是怎么做的,以及它的一些特性功能。
ANTLR v4 简介
ANTLR 是一款强大的语法分析器生成工具,可以用于读取,处理,执行,翻译结构化的文本或二进制文件。(是不是有一种看到英文的感觉,可以看懂每个字,但是合到一起就不认识了...不过没关系,继续往下看)
说白了, ANTLR 是一个可以生成自动化工具的工具,是比较牛皮的,我举个比较有画面的例子实例化一下:
我们把一只鸡作为原材料读取到一个黑盒中,接着进行处理(分块处理),紧接着执行,翻译(按照叫花鸡菜谱),最终我们可以得到一只香喷喷的叫花鸡。也就是说我们只需要给一只鸡,那么就会自动化出我们想要的叫花鸡.. 额哈,例子不是很恰当哈,不过意思到了。
这就是 ANTLR,它可以生成 自动根据菜谱生成菜的工具,也可以自动根据xx生成xx的工具,这只取决与我们给定的菜谱是什么,ANTLR就可以根据这个菜谱生成出这个一个自动化成产的工具。一些应用场景:Hibernate 的ORM就使用ANTLR来处理HQL语言,Lex Machina 用 ANTLR来分析法律文本,用 ANTLR 对遗留代码进行转换等。
到这你应该对 ANTLR 有了更大的兴趣,趁热打铁,先来看个简单的demo
快速开始
- 创ANTRL语法文件
Hello.g4
grammar Hello; //定义一个名为 Hello 的语法
statement: ID '=' NUM; //匹配类似 a=1 age=100 这样的语句
ID: [a-z]+; // 定义了一个词法 ID,由小写字母组成
NUM:[0-9]+; // 定义了一个词法 NUM,由数字组成
WS: [ \t\r\n]+ -> skip; //在进行解析的过程中,忽略掉空格,换行
- 生成词法分析器和语法分析器
antlr Hello.g4
- 编译 ANTLR 生成的 java 代码
javac *.java
- 进行词法,语法解析
ANTLR 提供了两种方式
- 通过编写java代码,读取输入,进行词法,语法解析
- 通过 ANTLR 提供的 TestRig 调试工具直接在终端进行调试(通过反射机制调用编译后的词法,语法解析器的代码实现)
我们先使用第二种方式来做,第一种在后续会讲到
grun Hello statement -gui 使用 Hello 语法和 statement 规则启动 testRig
age=10 // 输入待解析的语句
> EOF //UNIX下 CTRL+D,windows下 CTRL+C 结束匹配
最终就会看到以下结果
在这个过程中ANTLR 做了什么事呢?
- 定义语法规则
grammar Hello; //定义一个名为 Hello 的语法
statement: ID '=' NUM; //匹配类似 a=1 age=100 这样的语句
ID: [a-z]+; // 定义了一个词法 ID,由小写字母组成
NUM:[0-9]+; // 定义了一个词法 NUM,由数字组成
WS: [ \t\r\n]+ -> skip; //在进行解析的过程中,忽略掉空格,换行
第一行为固定写法,grammar 后面跟着文件名,表明定义了一个什么样的语法,当然你也可以说它定义了一个语言语法(你喜欢的话)。
一个语法是由多个语句组成(例如一个java文件是多个语句组成,eg:import语句,方法语句...)
一个语句由子语句和字符组成,比如 int age = 10;
,这是一个赋值语句,这个语句是由标识符符号 int
和普通符号组成(age, =, 10)
- 当我们输入
int age=10
,ANTLR 会用词法分析器,将这个输入的字符按照顺序解析成字符(tokens),即:int,age,=,10 -
ANTLR会拿到词法分析出来的tokens,根据我们定义的语句规则(statement: ID '=' NUM; )进行分析,从而得到最终解析到的语句。如下图
ANTLR语法是一种用于描述其他语言的语法,称之为ANTLR元语言
整个语法分析的过程:
- 词法分析:把输入的文本转换为词法符号,这种程序是词法分析器(lexer),词法分析器可以将相关的词法符号进行归类,比如Int,ID(标识符)。词法分析器会关注两个东西:词法符号的类型和对应的文本。词法分析器的规则以大写字母开头(ID,NUM)。
- 语法分析:将词法分析的结果识别成语句结构,并构建出语法分析 树。语法分析器的规则以小写字母开头(statement)
一般实现一种编程语言,就是构建一个程序,这个程序可以读取输入的语句,语句是由词组组成,词组又有子词组和词汇符号组成。
如果一个程序可以分析/执行语句,那么我们就称之为解释器(比如:计算器、读取配置的程序)
如果一个程序可以将一种语言的语句转换成另外一种语言的语句,那么这称之为翻译器
实现一个匹配算术表达式的语法
实现的功能包含基础的操作符(加减乘除),圆括号,整数以及变量,不包含字符串。
- 编写ANTLR语法规则。创建 Expr.g4 文件 和 待解析文件 expr.txt
grammar Expr
prog : stat+ //起始规则,语法分析的起点,prog 包含多个 stat 语法
stat: expr NEWLINE
| ID '=' expr NEWLINE
| NEWLINE
;
expr: expr ('*' | '/') expr
| expr ('+' | '-') expr
| INT
| ID
| '(' expr ')'
;
ID : [a-zA-Z]+;
INT : [0-9]+; //匹配整数
NEWLINE : '\r'? '\n'; //告诉语法分析器一个新行的开始(语句终止符号)
WS : [ \t]+ -> skip; //匹配的过程中丢弃空白符
'|' 相当于是 switch 的操作(expr规则包含以下几种子规则,子规则中包含了 expr,那么会进行递归操作
- 生成词法,语法解析器,查看语法分析树
antlr4 Expr.g4
javac *.java
grun Expr prog -gui
到这,我们就生成了一套自己定义的算术计算规则
更多:
- 可以继续使用 ANTLR 提供的 Listener 或者 Vistor 来实现算数的功能。详见demo/计算器 (待完善)
- 可以实现翻译的功能(JSON规则转XML文件,java代码语法检测重构)
- 在规则中内嵌属性和动作(eg:java 属性和方法)