一、摘要
先引入问题。由于数据的大量增长,采用直观的途径获取信息越来越重要,问答系统是一个既满足直观性又满足表达能力的折衷方案。
然后介绍通用的做法,有什么难点。将问题转化问rdf三元组,去知识库中检索答案,该方式不能很好的表示自然语言问题的语义,很多问题回答不了。
接着介绍本文的方法。对问题进行深层语义解析,产生一个sparql查询模板,该模板能完整的映射问题的语义结构。利用统计实体识别和谓词检测等方法填充模板中的槽。
最后表明本系统的回答问题的能力要优于其他系统。
二、介绍
先介绍通常情况的问答解析思路,把问题转化为N个三元组来表示,然后去知识库中检索。
然后举了几个把问题转换成sparql模板的例子,重点描述了含有more than、most的例子。
三、模板生成
利用Pythia,通过借助领域无关词库和领域相关词库产生自然语言问题的句法树(词汇化邻接树算法)和语义表示。
四、实体识别
名词短语和名词采用通用的识别算法(字串相似度)。谓词检测采用知识库和BOA pattern结合的方法,定义support、typicity和specificity给谓词打分,得分最高的就是最佳谓词表达式(自然语言问题)—谓词(知识库)的映射关系。
五、query排序与查询
经过三、四两个环节会产生多个spraql查询,根据相似性分数和显著性分数,以及类型一致性检查、空结果剔除等方法,获得合适的query。