Calcite - 看懂 Parser.jj 中的 SqlSelect

javacc 会根据 parser.jj 中定义的相互穿插的 Token、Java 代码来自动生成 org.apache.calcite.sql.parser.impl.SqlParserImpl 的代码。本文期望以一个简单的 Select 语句为例来说清楚 Sql 语句、Sql 语法定义、SqlParser 之间的关系。

sql 文本如下：

select * from emp where empno > 5 and gender = 'F'

Parser.jj（语法定义文件）和类 SqlParserImpl 中的 SqlSelect 部分定义如下（左为 Parser.jj、右为 SqlParserImpl 类），SqlParserImpl 是由 JavaCC 根据 Parser.jj 定义的语法自动生成，自动生成说白了也就是根据什么样的语法定义生成什么样的 java 代码，我们希望搞明白的就是这样的映射关系：

一、方法声明

会根据

SqlSelect SqlSelect()

生成

final public SqlSelect SqlSelect() throws ParseException

规则也很简单：头加 final public，尾加 throws ParseException

二、Java 代码调用

在 Parser.jj 中，JavaCC 对于 Java 代码调用是直接将其复制到 Parser 的相应位置

2.1、声明/初始化

在 Parser.jj 中，使用 {} 包围的部分都是代码声明，这部分代码会被直接 Copy 为 Parser 相应的代码，如：

这部分代码的作用是声明用于声明一些局部变量，这些局部变量会通过后续的 Token 解析和代码调用来赋值，最终用于构造 SqlSelect

2.2、代码调用

如下箭头所指即语法定义中的代码调用被直接复制到 Parser 的相应位置

三、Token 校验

在 Parser.jj 中定义了 token < SELECT: "SELECT" >，在 Parser.jj 中定义的语法要去匹配这个 Token，则在相应的位置写一个 <SELECT> 即可，JavaCC 会在 Parser 的相应位置增加一行 jj_consume_token(SELECT) 方法。

我们知道，词法解析器会将一段 Sql 解析为一个 Token list（有序的），当我们拿一组 Token 去匹配一段语法定义时，每次遇到语法中如上所述的 Token 定义（我们这里称之为 expectedToken(s)），就会从 Token list 中取出一个或多个连续的 Token（我们称之为 actualToken(s)），会去校验实际的和期望的 kind 是否一致：

如果两者类型一致，继续往下走代码生成
如果两者类型不一致，说明 Sql 文本（可能是局部的）与当前的定义不匹配，抛异常

jj_consume_token 的主要实现逻辑如下（去除了一些非关键代码）：

// SELECT 的 kind 值为 489
final private Token jj_consume_token(int kind) throws ParseException {
    Token oldToken;
    if ((oldToken = token).next != null) {
        // 只要不是最后一个 token，取 next Token 为当前 token；即将 Token 往后移一位。
        // token 初始值为 null，第一次往后移一位后得到的是 sql 即系出来的 Token list 的第一个
        // 在本例中为 SELECT
        token = token.next;
    } else {
        token = token.next = token_source.getNextToken();
    }
    if (token.kind == kind) {
        // 真实的 Token 类型与期望的 Token 类型相同，则校验通过
        return token;
    } else {
        // 真实的 Token 类型与期望的 Token 类型不同，则校验不通过，并抛异常
        token = oldToken;
        jj_kind = kind;
        throw generateParseException();
    }
}

举几个例子，比如：<SELECT> 会生成 jj_consume_token(SELECT) 代码，在 SqlSelect() 的语法定义中，是定义的第一个 Token，所以这里检查的是第一个 Token 是不是 SELECT；而且这里是单个、必选的，不是可能是多个或者可选的

关于 Token 校验更加复杂的情况，我们将在后文中介绍

四、正则相关

4.1、可选

// 使用正则的 [] 表示这一部分是可选的，这部分包含了 token <HINT_BEG> 和 <COMMENT_END> 以及两者之间的方法调用
// 如 /*+ NO_HASH_JOIN, RESOURCE(mem='128mb', parallelism='24') */
//     - **/*+** 即 <HINT_BEG>
//     - ***/** 即 <COMMENT_END>
//     - **NO_HASH_JOIN, RESOURCE(mem='128mb', parallelism='24')** 会喂给 CommaSepatatedSqlHints(hints) 的语法、代码用来为 hints 赋值
[
    <HINT_BEG>
    CommaSepatatedSqlHints(hints)
    <COMMENT_END>
]

将生成如下代码，在语法定义中使用正则 [] 和 Token 来定义可选部分是怎么样的，在 Parser 中先检查下一个 Token 类型是否符合再调用相应方法

// jj_ntk 表示 next token
//    - 若为 -1，表示刚开始遍历 token，往后移动一位拿到第一个 token
//    - 若不为 -1，表是已经拿到了 next token
// 总结来说 (jj_ntk==-1)?jj_ntk():jj_ntk 就是拿到下一个 token
switch ((jj_ntk==-1)?jj_ntk():jj_ntk) {
  // 如果下一个 token 是 HINT_BEG，则进入相应的分支流程
  case HINT_BEG:
    // 校验 token 类型
    jj_consume_token(HINT_BEG);
    CommaSepatatedSqlHints(hints);
    // 校验 token 类型
    jj_consume_token(COMMENT_END);
    break;
  default:
    jj_la1[29] = jj_gen;
    ;
}

4.2、0 次或 1 次

(
    <STREAM> {
        keywords.add(SqlSelectKeyword.STREAM.symbol(getPos()));
    }
)?

将生成如下代码，在语法中使用正则 (...)? 表示只出现 0 次或 1 次，在这一点上是和用 [] 表示效果相同，我们看下面的 switch case 的实现也能验证这一点。其余部分也是 Token 的校验和代码调用

switch ((jj_ntk==-1)?jj_ntk():jj_ntk) {
  case STREAM:
    jj_consume_token(STREAM);
          keywords.add(SqlSelectKeyword.STREAM.symbol(getPos()));
    break;
  default:
    jj_la1[30] = jj_gen;
    ;
}

4.3、或逻辑

(
    <DISTINCT> {
        keywords.add(SqlSelectKeyword.DISTINCT.symbol(getPos()));
    }
    |   <ALL> {
        keywords.add(SqlSelectKeyword.ALL.symbol(getPos()));
    }
)?

将生成如下代码，在语法定义中：

使用 (...)? 来表示可选的，所以在生成的代码中，使用 CASE ALL: CASE DISTINCT 来表达可选
- 下一个 Token 是 ALL 或 DISTINCT 则进入分支流程；否则进入 default
在内部，语法定义中使用 | 表示或逻辑，在生成的代码中使用 switch、case 来表达

switch ((jj_ntk==-1)?jj_ntk():jj_ntk) {
    case ALL:
    case DISTINCT:
        switch ((jj_ntk==-1)?jj_ntk():jj_ntk) {
            case DISTINCT:
                  jj_consume_token(DISTINCT);
                      keywords.add(SqlSelectKeyword.DISTINCT.symbol(getPos()));
                  break;
            case ALL:
                  jj_consume_token(ALL);
                      keywords.add(SqlSelectKeyword.ALL.symbol(getPos()));
              break;
            default:
                 jj_la1[31] = jj_gen;
                 jj_consume_token(-1);
          throw new ParseException();
        }
        break;
    default:
        jj_la1[32] = jj_gen;
        ;
}

除了上面介绍的一些 pattern，还有更多的，但是基于上面介绍的，相信看懂其他的形式也不是问题，这里就不再一个个介绍了

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,271评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,275评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,151评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,550评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,553评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,559评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,924评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,580评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,826评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,578评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,661评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,363评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,940评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,926评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,872评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,391评论 2赞 342