自然语言理解和自然语言生成是自然语言处理的两大内核,机器翻译是自然语言理解方面最早的研究工作。自然语言处理的主要任务是:研究表示语言能力和语言应用的模型,建立和实现计算框架并提出相应的方法不断地完善模型,根据这样的语言模型设计有效地实现自然语言通信的计算机系统,并研讨关于系统的评测技术,最终实现用自然语言与计算机进行通信。目前,具有一定自然语言处理能力的典型应用包括计算机信息检索系统、多语种翻译系统等。
微软创始人比尔·盖茨曾经表示,“语言理解是人工智能领域皇冠上的明珠”。
语言是逻辑思维和交流的工具,宇宙万物中,只有人类才具有这种高级功能。要实现人与计算机间采用自然语言通信,必须使计算机同时具备自然语言理解和自然语言生成两大功能。
因此,NLP 作为人工智能的一个子领域,其主要目的就包括两个方面:自然语言理解,让计算机理解自然语言文本的意义;自然语言生成,让计算机能以自然语言文本来表达给定的意图、思想等。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。
NLP 领域发展现状如何?
近年来,自然语言处理处于快速发展阶段。各种词表、语义语法词典、语料库等数据资源的日益丰富,词语切分、词性标注、句法分析等技术的快速进步,各种新理论、新方法、新模型的出现推动了自然语言处理研究的繁荣。互联网与移动互联网和世界经济社会一体化的潮流对自然语言处理技术的迫切需求,为自然语言处理研究发展提供了强大的市场动力。
我国直到上世纪80年代中期才开始较大规模和较系统的自然语言处理研究,尽管较国际水平尚有较大差距,但已经有了比较稳定的研究内容,包括语料库、知识库等数据资源建设,词语切分、句法分析等基础技术,以及信息检索、机器翻译等应用技术。
当前国内外出现了一批基于 NLP 技术的应用系统,例如 IBM 的 Watson 在电视问答节目中战胜人类冠军;苹果公司的 Siri 个人助理被大众广为测试;谷歌、微软、百度等公司纷纷发布个人智能助理;科大讯飞牵头研发高考机器人……但相比于性能趋于饱和的计算机视觉和语音识别技术,自然语言处理因技术难度太大、应用场景太复杂,研究成果还未达到足够的高度。
自然语言处理中句子级分析技术
目前,自然语言处理的对象有词、句子、篇章和段落、文本等,但是大多归根到底在句子的处理上,自然语言处理中的自然语言句子级分析技术,可以大致分为词法分析、句法分析、语义分析三个层面。
第一层面的词法分析包括汉语分词和词性标注两部分。和大部分西方语言不同,汉语书面语词语之间没有明显的空格标记,文本中的句子以字串的形式出现。因此汉语自然语言处理的首要工作就是要将输入的字串切分为单独的词语,然后在此基础上进行其他更高级的分析,这一步骤称为分词。
除了分词,词性标注也通常认为是词法分析的一部分。给定一个切好词的句子,词性标注的目的是为每一个词赋予一个类别,这个类别称为词性标记,比如,名词(Noun)、动词(Verb)、形容词(Adjective)等。一般来说,属于相同词性的词,在句法中承担类似的角色。
第二个层面的句法分析是对输入的文本句子进行分析以得到句子的句法结构的处理过程。对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的重要一环,另一方面也为其它自然语言处理任务提供支持。例如句法驱动的统计机器翻译需要对源语言或目标语言(或者同时两种语言)进行句法分析;语义分析通常以句法分析的输出结果作为输入以便获得更多的指示信息。
根据句法结构表示形式的不同,最常见的句法分析任务可以分为以下三种:
- 短语结构句法分析,该任务也被称作成分句法分析,作用是识别出句子中的短语结构以及短语之间的层次句法关系;
- 依存句法分析,作用是识别句子中词汇与词汇之间的相互依存关系;
- 深层文法句法分析,即利用深层文法,例如词汇化树邻接文法、词汇功能文法、组合范畴文法等,对句子进行深层的句法以及语义分析。
上述几种句法分析任务比较而言,依存句法分析属于浅层句法分析。其实现过程相对简单,比较适合在多语言环境下的应用,但是依存句法分析所能提供的信息也相对较少。深层文法句法分析可以提供丰富的句法和语义信息,但是采用的文法相对复杂,分析器的运行复杂度也较高,这使得深层句法分析当前不适合处理大规模数据。短语结构句法分析介于依存句法分析和深层文法句法分析之间。
第三个层面是语义分析。语义分析的最终目的是理解句子表达的真实语义。但是,语义应该采用什么表示形式一直困扰着研究者们,至今这个问题也没有一个统一的答案。
语义角色标注是目前比较成熟的浅层语义分析技术。基于逻辑表达的语义分析也得到学术界的长期关注。出于机器学习模型复杂度、效率的考虑,自然语言处理系统通常采用级联的方式,即分词、词性标注、句法分析、语义分析分别训练模型。实际使用时,给定输入句子,逐一使用各个模块进行分析,最终得到所有结果。
深度学习背景下的自然语言处理
近年来,随着研究工作的深入,研究者们开始从传统机器学习转向深度学习。2006年开始,有人利用深层神经网络在大规模无标注语料上无监督的为每个词学到了一个分布式表示,形式上把每个单词表示成一个固定维数的向量,当作词的底层特征。在此特征基础上,完成了词性标注、命名实体识别和语义角色标注等多个任务,后来有人利用递归神经网络完成了句法分析、情感分析和句子表示等多个任务,这也为语言表示提供了新的思路。
面向自然语言处理的深度学习研究工作,目前尚处于起步阶段,尽管已有的深度学习算法模型如循环神经网络、递归神经网络和卷积神经网络等已经有较为显著的应用,但还没有重大突破。围绕适合自然语言处理领域的深度学习模型构建等研究应该有着非常广阔的空间。
在当前已有的深度学习模型研究中,难点是在模型构建过程中参数的优化调整方面。主要有深度网络层数、正则化问题及网络学习速率等,可能的解决方案比如有采用多核机提升网络训练速度,针对不同应用场合,选择合适的优化算法等。
自然语言处理未来的研究方向
纵观自然语言处理技术研究发展的态势和现状,以下研究方向或问题将可能成为自然语言处理未来研究必须攻克的堡垒:
词法和句法分析方面:包括多粒度分词、新词发现、词性标注等;
语义分析方面:包括词义消歧、非规范文本的语义分析。其中,非规范划化文本主要指社交平台上比较口语化、弱规范甚至不规范的短文本,因其数据量巨大和实时性而具有研究和应用价值,被广泛用于舆情监控、情感分析和突发事件发现等任务;
语言认知模型方面:比如使用深度神经网络处理自然语言,建立更有效、可解释的语言计算模型,例如,词嵌入的发现。还有目前词的表示是通过大量的语料库学习得到的,如何通过基于少量样本来发现新词、低频词也急需探索;
知识图谱方面:如何构建能够融合符号逻辑和表示学习的大规模高精度的知识图谱;
文本分类与聚类方面:通过有监督、半监督和无监督学习,能够准确进行分类和聚类。当下大多数语料都是没有标签的,未来在无监督或者半监督方面更有需求;
信息抽取方面:对于多源异构信息,如何准确进行关系、事件的抽取等。信息抽取主要从面向开放域的可扩展信息抽取技术、自学习与自适应和自演化的信息抽取系统以及面向多源异构数据的信息融合技术方向发展;
情感分析方面:包括基于上下文感知的情感分析、跨领域跨语言情感分析、基于深度学习的端到端情感分析、情感解释、反讽分析、立场分析等;
自动文摘方面:如何表达要点信息?如何评估信息单元的重要性?这些都要随着语义分析、篇章理解、深度学习等技术快速发展;
信息检索方面:包括意图搜索、语义搜索等,都将有可能出现在各种场景的垂直领域,将以知识化推理为检索运行方式,以自然语言多媒体交互为手段的智能化搜索与推荐技术;
自动问答方面:包括深度推理问答、多轮问答等各种形式的自动问答系统;
机器翻译方面:包括面向小数据的机器翻译、非规范文本的机器翻译和篇章级机器翻译等。
总结
本文,从 NLP 的概念出发,首先指出了自然语言处理的两大内核:自然语言理解和自然语言生成;然后简单介绍了国内外 NLP 研究发展现状;紧接着重点介绍了最常用、应用最广的自然语言处理中句子级分析技术,最后在深度学习背景下,指出了自然语言处理未来可能遇到的挑战和重点研究方向,为后期的学习提供指导和帮助。