一、摘要
介绍基于RDF的QA系统。现存的解决方案分为两个步骤,问题理解和查询评价。问题理解阶段关键问题是如何消歧,大多数采用联合消歧的办法,这种方法拥有指数级的搜索空间。
在本文中,从数据驱动图的视角提出了一个系统性的框架来解决问题。本文利用“语义查询图”(semantic query graph)来对问题意图进行建模,把RDF QA任务转换成一个子图匹配的问题。一旦在RDF中匹配到了语义查询图,就解决了自然语言问题中的歧义性问题。本文和当前最高水平的QA系统做了对比,不仅提高了准确度也提升了系统的执行效率。
二、介绍
在RDF上写SPARQL查询对于用户来说太难了,自然语言QA就可以完美的解决这个问题(隐藏了逻辑复杂性,允许用户通过直观的途径获取答案)。
1、动机
在问题理解的实体链接阶段,存在着歧义性,某个自然语言表达式对应着RDF中的多种资源、类型或实例等,采用联合消歧的传统方法花了太大的代价在问题理解阶段,问答系统的响应时间很长。
在本文中,我们把消歧的任务放在了查询评价阶段,问题理解阶段允许歧义性的存在。这样做的主要优点是避免了在问题理解阶段花费昂贵的代价处理歧义性,同时也加快了整个系统效率。
一个自然语言问题中的短语可以对应多个RDF graph G中的语义项(subject、object、predicate)。当问题的语义图没有在G中匹配到,歧义性也就得到了解决。本系统的关键技术是,如何定义自然语言问题N到RDF graph G的子图匹配(match)。N是非结构化数据,G是结构化的,为了构建他们之间的映射关系,本文提出了一个问题语义图Q^s来表示问题N。现在的任务是寻求Q^s与RDF graph G之间的子图匹配。
2、方法
问题理解阶段,将自然语言问题N用语义查询图(Q^s)表示,顶点表示实体,边表示关系。每条边拥有两个参数,分别是两端的两个顶点。每个顶点或者边对应多个RDF中的实体和谓词。
查询评价阶段,匹配Q^s在RDF graph上的子图,对每个匹配到的子图指定一个分数,,取top-k个匹配子图。
主要贡献:
把消歧和查询评估一并处理,提高准确度,提升系统执行效率;
提出了图搜索算法,把自然语言问题中的短语映射到RDF graph top-k个可能的谓词,这个步骤构建了一个释义词典D,格式是每个关系短语对应RDF中的多个谓词或谓词路径,同时也拥有一个置信度,这个释义词典D用在问题理解阶段的关系链接上;
用语义查询图Q^s表示问题N,Q^s允许链接歧义的存在。把QA转换成了一个在RDF graph G上的子图匹配任务,这个步骤在查询评价阶段进行;
做了大量的实验,本系统不仅更有效而且更有效率;