近年阿尔法狗与人类的围棋“人机大战”炒得火热,在这个新闻热点的背后大家都会思考一个问题:人类和人工智能除了各种大战之外,是否能够实现和谐共存?比如人类和机器人之间是否会有爱情出现呢?
当然,这样的场景在很多电影中都已经出现过,最近的一则消息让大家对这个话题更有了一些想象空间:由斯坦福大学发起的SQuAD(Stanford Question Answering)挑战赛榜单更新成绩,科大讯飞与哈工大联合实验室(HFL)提交的系统模型夺得第一名宝座,这也是中国本土研究机构首次取得该赛事的榜首。
SQuAD挑战赛最新成绩榜单
SQuAD挑战赛是行业内公认的“机器阅读理解标准水平测试”,也是该领域的顶级赛事,被誉为机器阅读理解界的ImageNet(图像识别领域的顶级赛事)。参赛者来自全球学术界和产业界的研究团队,包括微软亚洲研究院、艾伦研究院、IBM、Salesforce、Facebook、谷歌以及卡内基·梅隆大学、斯坦福大学等知名企业研究机构和高校,赛事对自然语言理解的进步有重要的推动作用。
如果人类想和机器人谈恋爱,最大的困难就是:机器阅读的长句理解
电影《Her》讲述了主人公西奥多在结束了一段令他心碎的爱情长跑之后,他爱上了电脑操作系统里的女声,这个叫“萨曼莎”的姑娘不仅有着略微沙哑的性感嗓音,并且风趣幽默、善解人意,让孤独的男主泥足深陷。
萨曼萨其实就是人工智能,它通过扫描主人公的邮件,阅读与主人相关的资料后,越来像主人公去世的女友,两人就开启了一段人机恋爱的故事。
这部电影涉及到了一个很专业的人工智能领域,如果机器要和人谈恋爱,首先机器必须能够理解自然语言,有关自然语言理解的最大难点就在于:长句的阅读理解!
现在人类已经在图像识别、机器翻译、语音识别等领域取得了卓越的成绩。人类学家认为,语言是构建人类文明的基石。在语言上,我们构建了神话、宗教;构建了城邦、帝国;构建了信任、信仰;甚至我们自己还发明了编程语言。很长一段时间,自然语言处理研究都是基于句子级别的阅读理解,例如给一个句子,理解句子中的主谓宾、定状补等等,但是长文的理解一直都是难点。
举例:
莱茵河是一条位于欧洲的著名河流,始于瑞士阿尔卑斯山,流经瑞士、奥地利、列支敦士登、法国、德国、荷兰,最终在荷兰注入北海。莱茵河上最大的城市是德国科隆。它是中欧和西欧区域的第二长河流,位于多瑙河之后,约1230公里。
若针对该段内容提问:什么河比莱茵河长?人们可以轻易地给出答案:多瑙河。但目前,即使是最佳的系统模型R-NET给出的答案也并不尽人意,它的回答是科隆。对人类来说,这是一个非常简单的阅读理解题,但对机器的阅读理解能力来说,这是超级困难的。
科大讯飞在机器阅读理解标准水平测试SQuAD挑战赛中,勇夺第一
SQuAD挑战赛通过众包的方式构建了一个大规模的机器阅读理解数据集(包含10万个问题),就是将一篇几百词左右的短文给人工标注者阅读,让标注人员提出最多5个基于文章内容的问题并提供正确答案;短文原文则来源于500多篇维基百科文章。参赛者提交的系统模型在阅读完数据集中的一篇短文之后,回答若干个基于文章内容的问题,然后与人工标注的答案进行比对,得出精确匹配(Exact Match)和模糊匹配(F1-score)的结果。
SQuAD挑战赛主页
SQuAD向参赛者提供训练集用于模型训练,以及一个规模较小的数据集作为开发集,用于模型的调优和选型。与此同时,SQuAD还提供了一个开放平台供参赛者提交自己的算法,由SQuAD官方利用隐藏的测试集对参赛系统进行评分,并在SQuAD官方确认后将相关结果更新到官网上。得益于SQuAD提供的大规模高质量的训练数据以及层出不穷的模型,该挑战赛的榜单一次又一次的刷新。目前,科大讯飞与哈工大联合实验室提交的系统模型取得了精确匹配77.845%和模糊匹配85.297%的成绩,位列世界第一。
科大讯飞,是如何做到的?
在SQuAD官网的成绩榜单上,可以看到科大讯飞与哈工大联合实验室提交的模型名为“Interactive AoA Reader”,这是讯飞经过不断摸索之后提出的“基于交互式层叠注意力模型”(Interactive Attention-over-Attention Model)。正是这个与众不同的模型,让科大讯飞在全球自然语言理解研究领域脱颖而出、跃居头名。
机器阅读理解问题的解决,传统的自然语言处理(NLP)方式是采用分拆任务的方法将其分成问题分析、篇章分析、关键句抽取等一些步骤,但这种方法容易造成级联误差的积累,很难得到很好的效果。
目前在机器阅读理解领域中,则多采用完全端到端的神经网络建模,消除了分步骤产生的级联误差。除此之外,采用神经网络的方法能够通过大量的训练数据学习到泛化的知识表示,对篇章和问题从语义层面上高度抽象化。
讯飞同样也采用了端到端的神经网络模型,但把精力更多放在如何能够模拟人类在做阅读理解问题时的一些方法。讯飞提出的基于交互式层叠注意力模型,主要思想是根据给定的问题对篇章进行多次的过滤,同时根据已经被过滤的文章进一步筛选出问题中的关键提问点。这样“交互式”地逐步精确答案的范围,与其他参赛者的做法不太相同,最终收获了令人瞩目的成绩。
让机器能够阅读理解,究竟有什么意义?
首先,让机器实现“能听会说”到“能理解会思考”,也一直是科大讯飞所肩负的使命和方向。科大讯飞认为,人工智能的发展主要分为运算智能、感知智能和认知智能。机器在运算智能上有极大的优势,在感知智能上也已经取得了很大的进展,例如语音识别、语音合成、图像识别、机器翻译等。现在全球的研究机构都在寻找由感知智能向认知智能突破的关键缺口,在认知智能方面,自然语言处理一直是实现人机交互、人工智能的重要技术基石,机器阅读理解正是实现这一领域突破的一个研究焦点。只有人工智能突破了阅读理解,才能真正进入认知智能领域,人工智能才会越来越智能、聪明!
早在2014年,科大讯飞与哈尔滨工业大学就联合成立了联合实验室(HFL),作为“讯飞超脑”计划的核心研发团队之一,联合实验室致力于在语言认知计算领域进行长期、深入的技术创新,重点突破深层语义理解、逻辑推理决策、自主学习进化等认知智能关键技术,并围绕教育学习、人机语音交互、信息安全等领域实现科研成果的规模化应用。
科大讯飞不仅能够提供各类人工智能教育产品,为广大师生提供教学系统解决方案,更是推出了专门针对考试评分的全学科阅卷系统,能让机器人做考试评分,特别是给考卷的主观题评分。以语文考试的作文为例,在阅卷之前老师们先设置一套通用的打分标准,包括字迹工整度、词汇丰富性、句子通顺度、文采、篇章结构、立意等多个层次,研究人员让机器来学习这套方案后进行阅卷。这每一项标准背后都需要精密复杂的技术支持,比如手写识别、主题模型、人工神经网络等。
目前,科大讯飞的全学科阅卷技术在四六级、部分省份的高考、中考等大规模考试中进行了试点验证,验证结果表明计算机评分结果已经达到了现场阅卷老师的水平,完全满足大规模考试的需要。这项技术应用到正式考试中,就可以辅助人工阅卷,减少人员投入,降低人工阅卷中疲劳、情绪等因素的影响,进一步提升阅卷效率和准确性。
此前,哈工大讯飞联合实验室曾先后在Google DeepMind阅读理解公开数据测试集、Facebook阅读理解公开数据测试集取得世界最好成绩,本次在SQuAD测试集再获全球最佳,包揽了机器阅读理解权威测试集的“大满贯”。机器阅读理解技术拥有广阔的应用场景,例如在产品的精准问答、开放域的问答上都会起到有力的支撑作用,讯飞也在不断探索机器阅读理解技术的应用落地。但对于机器阅读理解的“能理解会思考”的终极目标来说,现在还只是万里长征的开始,对自然语言的更深层次的归纳、总结、推理,一定是未来机器阅读理解不可缺少的部分。