ANTLR 入门gap

前言

这篇文章是为了让新手能够快速全面的上手学习 ANTLR 的词法,语法解析原理以及其特性。因为自己在学习的过程中,Google了很多ANTLR的教程,不过都没能看太懂,很多概念不能理解,对于新手来说,友好度不够。所以有了这篇文章...
那么这篇文章会从词法,语法分析开始聊起,然后到 ANTLR 是怎么做的,以及它的一些特性功能。

ANTLR v4 简介

ANTLR 是一款强大的语法分析器生成工具,可以用于读取处理执行,翻译结构化的文本或二进制文件。(是不是有一种看到英文的感觉,可以看懂每个字,但是合到一起就不认识了...不过没关系,继续往下看)

说白了, ANTLR 是一个可以生成自动化工具的工具,是比较牛皮的,我举个比较有画面的例子实例化一下:
我们把一只鸡作为原材料读取到一个黑盒中,接着进行处理(分块处理),紧接着执行,翻译(按照叫花鸡菜谱),最终我们可以得到一只香喷喷的叫花鸡。也就是说我们只需要给一只鸡,那么就会自动化出我们想要的叫花鸡.. 额哈,例子不是很恰当哈,不过意思到了。
这就是 ANTLR,它可以生成 自动根据菜谱生成菜的工具,也可以自动根据xx生成xx的工具,这只取决与我们给定的菜谱是什么,ANTLR就可以根据这个菜谱生成出这个一个自动化成产的工具。一些应用场景:Hibernate 的ORM就使用ANTLR来处理HQL语言,Lex Machina 用 ANTLR来分析法律文本,用 ANTLR 对遗留代码进行转换等。

到这你应该对 ANTLR 有了更大的兴趣,趁热打铁,先来看个简单的demo

快速开始

这么聪明的你下载安装肯定不是问题

  1. 创ANTRL语法文件Hello.g4
grammar Hello;  //定义一个名为 Hello 的语法
statement: ID '=' NUM; //匹配类似 a=1 age=100 这样的语句
ID: [a-z]+;   // 定义了一个词法 ID,由小写字母组成
NUM:[0-9]+; // 定义了一个词法 NUM,由数字组成
WS: [ \t\r\n]+ -> skip;  //在进行解析的过程中,忽略掉空格,换行
  1. 生成词法分析器和语法分析器
antlr Hello.g4
  1. 编译 ANTLR 生成的 java 代码
javac *.java
  1. 进行词法,语法解析
    ANTLR 提供了两种方式
  • 通过编写java代码,读取输入,进行词法,语法解析
  • 通过 ANTLR 提供的 TestRig 调试工具直接在终端进行调试(通过反射机制调用编译后的词法,语法解析器的代码实现)
    我们先使用第二种方式来做,第一种在后续会讲到
grun Hello statement -gui  使用 Hello 语法和 statement 规则启动 testRig
 age=10 // 输入待解析的语句
> EOF   //UNIX下 CTRL+D,windows下 CTRL+C 结束匹配

最终就会看到以下结果


在这个过程中ANTLR 做了什么事呢?

  1. 定义语法规则
grammar Hello;  //定义一个名为 Hello 的语法
statement: ID '=' NUM; //匹配类似 a=1 age=100 这样的语句
ID: [a-z]+;   // 定义了一个词法 ID,由小写字母组成
NUM:[0-9]+; // 定义了一个词法 NUM,由数字组成
WS: [ \t\r\n]+ -> skip;  //在进行解析的过程中,忽略掉空格,换行

第一行为固定写法,grammar 后面跟着文件名,表明定义了一个什么样的语法,当然你也可以说它定义了一个语言语法(你喜欢的话)。
一个语法是由多个语句组成(例如一个java文件是多个语句组成,eg:import语句,方法语句...)
一个语句由子语句和字符组成,比如 int age = 10; ,这是一个赋值语句,这个语句是由标识符符号 int 和普通符号组成(age, =, 10)

  1. 当我们输入 int age=10,ANTLR 会用词法分析器,将这个输入的字符按照顺序解析成字符(tokens),即:int,age,=,10
  2. ANTLR会拿到词法分析出来的tokens,根据我们定义的语句规则(statement: ID '=' NUM; )进行分析,从而得到最终解析到的语句。如下图


ANTLR语法是一种用于描述其他语言的语法,称之为ANTLR元语言
整个语法分析的过程:

  • 词法分析:把输入的文本转换为词法符号,这种程序是词法分析器(lexer),词法分析器可以将相关的词法符号进行归类,比如Int,ID(标识符)。词法分析器会关注两个东西:词法符号的类型和对应的文本。词法分析器的规则以大写字母开头(ID,NUM)。
  • 语法分析:将词法分析的结果识别成语句结构,并构建出语法分析 树。语法分析器的规则以小写字母开头(statement)

一般实现一种编程语言,就是构建一个程序,这个程序可以读取输入的语句,语句是由词组组成,词组又有子词组和词汇符号组成。
如果一个程序可以分析/执行语句,那么我们就称之为解释器(比如:计算器、读取配置的程序)
如果一个程序可以将一种语言的语句转换成另外一种语言的语句,那么这称之为翻译器

实现一个匹配算术表达式的语法

实现的功能包含基础的操作符(加减乘除),圆括号,整数以及变量,不包含字符串。

  1. 编写ANTLR语法规则。创建 Expr.g4 文件 和 待解析文件 expr.txt
grammar Expr

prog : stat+ //起始规则,语法分析的起点,prog 包含多个 stat 语法
stat: expr NEWLINE
    | ID '=' expr NEWLINE
    | NEWLINE
    ;

expr: expr ('*' | '/') expr
    | expr ('+' | '-') expr
    | INT
    | ID
    | '(' expr ')'
    ;
ID : [a-zA-Z]+;
INT : [0-9]+; //匹配整数
NEWLINE : '\r'? '\n'; //告诉语法分析器一个新行的开始(语句终止符号)
WS : [ \t]+ -> skip;  //匹配的过程中丢弃空白符

'|' 相当于是 switch 的操作(expr规则包含以下几种子规则,子规则中包含了 expr,那么会进行递归操作

  1. 生成词法,语法解析器,查看语法分析树
antlr4 Expr.g4
javac *.java
grun Expr prog -gui

到这,我们就生成了一套自己定义的算术计算规则

更多:

  • 可以继续使用 ANTLR 提供的 Listener 或者 Vistor 来实现算数的功能。详见demo/计算器 (待完善)
  • 可以实现翻译的功能(JSON规则转XML文件,java代码语法检测重构)
  • 在规则中内嵌属性和动作(eg:java 属性和方法)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容

  • Antlr简介 ANTLR 语言识别的一个工具 (ANother Tool for Language Recogn...
    谢谢侬侬侬阅读 6,299评论 0 2
  • 一个编译器的前端通常包括词法分析器和语法分析器。在分析过程中,文本输入词法分析器,根据词法规则解析出词法单元。词法...
    dannyvi阅读 1,773评论 0 1
  • 翻译:原文语法本质上是一个语法声明,后面是规则列表,但具有以下一般形式: 包含语法X的文件名必须称为X.g4。您可...
    will2yang阅读 885评论 0 0
  • 在之前的一篇博客中,曾经用clang提供的库LibTooling编写了一个简单的导出iOS代码中函数调用关系图的工...
    yoku酱阅读 361评论 0 1
  • 不用承担后果,所以就放纵一把,图个痛快。键盘侠是这类人的代表了,碰到自己不爽的,随意怼,反正谁也不认识谁,回到生活...
    凝鸢阿定阅读 420评论 0 0