RATSQL(Relation-Aware Transformer)论文笔记

本issue记录RATSQL相关的内容

摘要

现有两个挑战

  1. 如何为语义解析器提供编码数据库关系?
  2. 如何将数据库列名与给定的query对齐

本文工作

基于关系感知的自注意力机制,在一个text-to-sql encoder内解决schema encodingschema linking特征表示三个问题

Introduction

schema表示(schema generalization难点

  1. 任何text-to-sql模型均要将schema构建为适合解码成可能包含列名和表名的SQL语句的向量表示
  2. 1中得到的表示应该编码了schema的所有信息,包括列类别、主键、外键
  3. 模型需要识别(可能与训练过程不同的)NL问题所设计的列名和表格,故成:schema linking,即将question与列、表进行对齐

具体描述本文工作

(RATSQL)利用关系感知的自注意力机制来构建schema和question的全局推理,用于在给定的question和数据库schema中对关系结构进行编码。

Related Work

  1. relation-aware self-attentionpaper

Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. 2018. Self-Attention with Relative Position Repre- sentations. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pages 464– 468.

  1. AST-based structural paper

Jiaqi Guo, Zecheng Zhan, Yan Gao, Yan Xiao, Jian-Guang Lou, Ting Liu, and Dongmei Zhang. 2019. Towards complex text-to-SQL in cross- domain database with intermediate representation. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4524–4535.

Relation-Aware Self-Attention

一个正常的self-attention encoder/transformer:

给定输入:

image.png

有:

image.png

其中,1 \le h \le H,这里attention权重\alpha_{ij}^{(h)}就是input的关系信息

一个self-attention layer:

image.png

这里,r_{ij}就编码了x_ix_j之间已知的关系

假设\mathbb{R}为关系特征集合,那么\mathbb{R}^{(s)} \subseteq X \times X。RATSQL对每个(i, j)边用r_{ij}^K=r_{ij}^V=concat(\rho_{ij}^{(1)}, ..., \rho_{ij}^{(R)})表示所有的预定义特征。

这里\rho_{ij}^{(s)}要么是一个从关系\mathbb{R}学到的embedding(如果该关系适用于相应的边),要么是一个零向量。

RAT-SQL

1. 输入输出定义

基本定义:
  • 输入:
    1. natural language question Q
    2. schema S=<C,T>
  • 输出:
    1. SQL P (abstract syntax tree T
  • 其中
    • Question:Q=q_1, ..., q_{|Q|}是一个words序列
    • column:C={\{c_1, ..., c_{|C|}\}},每个c_i还包含type,\tau \in {\{number, text\}}
    • table:T={\{t_1, ..., t_{|T|}\}}

每个列名c_i均包括多个words,如c_{i,1}, ..., c_{i,|c_i|};表格名t_i也包括多个words,如t_{i,1}, ..., t_{i,|t_i|}

将database schema表示为:
image.png

其中:

  • image.png
  • \varepsilon为边(具体见下图)

    image.png
因为以上不包括question信息,所以设计了新的图:

\mathcal{G}_Q =<\mathcal{V}_Q, \mathcal{E}_Q>

其中:

  • \mathcal{V}_Q =\mathcal{V}\cup\mathcal{Q}=\mathcal{C}\cup\mathcal{T}\cup\mathcal{Q}
  • \mathcal{E}_Q =\mathcal{E}\cup\mathcal{E}_{Q\leftrightarrow S}(后面会讲question和schema之间的特殊关系)
encoder-decoder

\mathcal{G}_Qf_{enc}representationsf_{dec}P_r(P| \mathcal{G}_Q)

2. Relation-Aware Input Encoding

  1. Glove
  2. BiLSTM
  3. BERT

因此对于graph\mathcal{G}_Q,构建输入为:

image.png

3. Schema Linking

\varepsilon_{Q\leftrightarrow S}的schema linking relations辅助模型去做question和schema的对齐,对齐也主要包括两种:match namesmatch values

Name-Based Linking

是指列名/表名完全或部分地出现在question中,self-attention在这里还是有一些的缺陷,所以作者:

  1. 对question取1~5的n-gram,判别每个n-gram是exact match还是partial match
  2. 对于x_i\in Q, x_j\in S(或反过来),我们约定r_{ij}\in \varepsilon_{Q\leftrightarrow S}属于:
image.png
Value-Based Linking

是指Question与schema中的内容(value)相关联,因此也会间接影响到SQL,所以作者:

  1. q_i和列名c_j增加了一个Column-Value,即q_i匹配了列c_j的任意一个值
Memeory-Schema Alignment Matrix

TODO

4. Decoder

decoder参考了

Pengcheng Yin and Graham Neubig. 2017. A Syntactic Neural Model for General-Purpose Code Generation. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 440–450.

的树结构。

(该方法)根据深度优先遍历,通过一个LSTM来输出一个decoder action序列,像生成句法树一样生成SQL。这个action的产生遵从以下两种方式:

  1. 根据语法规则扩展最后生成的节点,称为ApplyRule
  2. 从schema中选择一个column或者table,成为SelectColumn或者SelectTable

准确来说,

image.png

其中\mathcal{Y} =f_{enc} (\mathcal{G}_Q)是question和schema最后的encoding变量,a_{<t}是之前所有的actions。因此对于不同的action,有不同操作,如下:

  • 对于ApplyRule,Pr(a_t=ApplyRule[R]|a_{<t},y)=softmax_R(g(\boldsymbol{h}_t))
  • 对于SelectColumn,
    image.png

Experiments

本小结详细讲了实验相关细节,描述了用到的方案如StanfordCoreNLP,PyTorch,BERT,batch size=24训练了9w个step,利用了超参数搜索的一些方式。由于spider没有test数据公开,所以论文也在dev上进行了验证和实验。并给出了Spider和WiKiSQL两个数据集的实验结果。

在错误分析部分,分析主要有以下三类错误:

  1. 18%:由于SQL表述形式不同但是实际意义相同
  2. 39%:在Select部分有丢失或者错误
  3. 29%:在Where部分错误

附录

TODO

按语

本篇论文是20年微软发表在ACL上的论文,基本达到了当时的sota水平,同时开源了项目代码,有极大的研究价值。纵观整个项目,项目代码较为优雅,在执行上做了很多优化,利用装饰器封装了一个全局的字典用于存储所有变量,方便整个项目在任意位置访问资源,这种写法可以深入学习。模型结构方面,还是经典的encoder-decoder,在encoder部分做了很多的尝试,在decoder部分还是采用了IRNet那种AST的方式。

作者主要是参考了relation-aware self-attention,即将schema和question之间的关系在做attention的时候加进去,从而让模型学得Question与Schema之间的关联信息。所以论文的很多工作是围绕着如何描述它们之间的信息展开的,例如定义了一些column和table之间的type(table 1),在question和column/table之间做match(name-based, value-based),以及(还没看)。在decoder阶段是利用了LSTM深度优先生成树结构,从而构成SQL语句。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容