CUI三部曲之自然语言处理——机器如何理解你的话？

在智能时代，以对话为主要交互形式的CUI会应用到越来越多的场景中，这时机器往往需要能够完成“听懂——理解——回答”的闭环。它们相应地涉及到三类技术：语音识别、自然语言处理以及语音合成。

语音识别的任务是将用户所说的话从音频形式转变为文字形式，自然语言处理的任务则是理解这些文字所要表达的意思（语义）。机器针对用户的语义会给出相应的回答，并以语音的形式说给用户听，这就需要用到语音合成。

语音识别、自然语言理解与语音合成三者环环相扣，任何一环的失误都无法使产品获得良好的用户体验。

如果说语音识别是CUI交互的基础，自然语言处理则是当之无愧的灵魂：无法理解用户说话的意思，那和一台录音机有什么区别。

NLP与对话系统

自然语言即人类日常交流所使用的语言，与之相对的是人造语言（如各种编程语言）。自然语言处理（Natural Language Processing，NLP）主要研究机器如何理解自然语言文本的含义从而有效处理，以及人与机器之间如何通过自然语言有效通信。

NLP的应用非常广泛，包括文本分类、文本摘要、机器翻译、舆情监测与对话系统等，每个应用领域所涉及到的技术原理会有所差异。

以CUI为主要交互形式的对话产品，其核心是一个对话系统。在一个比较简单的对话系统中，用户输入的文字主要会经过分词、词性标注、特征提取与分类检索四个处理过程。

（对话系统对文字的处理过程）

（1）分词

分词指通过分词模型，将一个文字序列切分成一个个词或短语。单独的汉字与字母往往很难表达语义，所以需要将文字序列变成由词或短语组成的序列，作为后续处理的基础。

英文的单词之间存在空格作为分界，所以仅存在短语的划分问题；而中文的文字之间没有明显的分界符来进行词语上的划分，所以中文分词比英文分词更加困难。

中文分词的方法主要分为三类：基于匹配、基于理解与基于统计。基于匹配是指将文字序列与一个“词典”中的词语进行匹配，若在“词典”中找到某个词语与文字序列中的某几个连续汉字匹配，则将这几个连续汉字切分为一个词；基于理解是指在分词的同时进行句法、语义的分析，并利用句法和语义信息来帮助分词；基于统计是指通过统计文字序列中的相邻文字在大量文本数据中相邻出现的频率，来判断它们是否组成了一个词语。

（2）词性标注

分词模型将用户输入的文字序列变成“词语序列”后，就需要通过标注模型，来标注这些词语的词性：即确定它们在这句话中是名词、动词还是代词等等。

中文词性标注相对英文较为简单，因为一个中文词语的词性往往只有一个；即便一些中文词语存在多个词性，它的“主要”词性出现的频率也远高于其余词性。据说在中文词性标注时，只需“简单粗暴”地为每个词语选取它最主要的那个词性，即可获得还不错标注准确率。在需要更高的标注准确率时，可采用隐马尔可夫模型等方法。

（3）特征提取

特征提取是将用户输入的文字序列变成向量的过程。根据分词与词性标注的结果，可以根据某种规则来提取文字序列的若干个特征，组成一个向量；向量的每个分量则描述了文字序列的一种特征。文字序列变成了机器擅长处理的向量形式后，即可进行后续的分类与检索。

（4）分类检索

分类与检索通过分类器（用于分类的模型，如神经网络）与FAQ（储存着很多“问题”与对应“答案”的数据库）来完成。

（FAQ中的“问题”与“答案”）

FAQ中储存的一个个“问题”，在机器眼里是一个个向量。通过特征提取得到用户输入的文字序列所对应的向量之后，就可以利用分类器，通过向量与向量之间相似程度的计算，来等效获得用户输入与FAQ中各个“问题”的相似程度。

（文字在对话系统中的变化过程）

通过比较用户输入与FAQ中各个“问题”的相似程度的大小，就能检索出与用户输入最为“匹配”的那一个，从而将它所对应的“答案”作为回答，输出给用户。

值得一提的是，如今AI界的网红深度学习，正是通过分词模型、标注模型以及分类器的训练来应用于对话系统中的。这些模型可以选择深度神经网络作为结构形式，然后通过大量数据训练而得到。

此外，对于更加复杂的对话系统，还涉及到指代消解、成分补全、命名实体识别等NLP技术，同时在架构层面也需要具备对话管理器、知识图谱等模块。这些进阶版的科普内容，会在以后的文章中详细阐述。

人工智能的高枝果实

NLP是人工智能的“高枝果实”，其难度一直被认为是人工智能领域最高的之一。目前NLP所获得的研究成果离真正准确地理解人类语言，与人类无障碍交流还相差甚远。

（毕竟too young too simple）

NLP的难度主要来源于两个方面：一是语言是人类自己所创造的东西，并不是客观世界所存在的，所以非常主观与多变；二是语言所传递的信息往往和上下文有关。

（1）语言的多变性

语言的多变最典型的体现就是一个意思有多种说法，以及同样的词语在不同的语言环境中表达不同的意思。比如同样询问一辆车的操控体验，就有无数种说法：

奔驰的操控性怎么样？
奔驰好开吗？
奔驰开起来顺手吗？
……

又比如同样一个动词“打”，可以表达无数种不同的意思：

我要去打个车
他很想打人
你去把这个文件打一下
……

人类理解这些不同的说法并不困难，但对机器而言则是噩梦：单纯根据字词的意思推测语义，很多时候会得到错误的结果；如果要穷尽各种不同的表达方式来训练一个模型，所需要的数据量则是天文数字；如果想把人类理解这些语言的“规则”告诉机器，又很难把这些规则总结清楚……

而且在日常交流时，还大量存在各种不规范说法、简称、习惯用法等。机器要想理解它们，分分钟哭晕在厕所。

（2）上下文相关性

自然语言中上下文的相关性主要体现在某个语句所要表达的意思，往往和之前的谈话内容有所关联。比如：

A - 北京今天有雾霾吗
B - 有，重度污染
A - 那明天呢
B - 别问了，最近天天都有
A - 那它啥时候会好点
B - 不知道

A在第二个问题中省略了提问内容“有雾霾吗”，在第三个问题中用“它”指代了北京的空气状况，B都能够联系上文准确领会。但让机器去这样做则是一个困难的问题。尽管像上面这样简单的对话目前的技术已经能够处理，但更加复杂的上下文场景依然存在很大的挑战。

产品只求恰到好处

NLP技术的不成熟并不代表它在今天无法发挥价值。前沿科技的落地永远不必等到万事俱备：技术需要深厚积淀，产品只求恰到好处。唯有将现有的技术成果积极投入应用，才能有更多实际场景中的反馈来促进技术的发展。

应用在对话系统中时，NLP的“恰到好处”体现在三方面：支持特定语言、应用于特定领域与场景、明确特定的打开方式。

（1）特定语言

不同语言的“字词”差异很大，且存在不同的语法，所以机器对每一种语言的处理都需要专门针对这种语言收集数据训练模型。如果需要支持处理的语言种类很多，工作量会十分庞大。

然而在开发一个对话产品时，往往只需支持一两种较为通用的官方语言（比如标准的中英文）即可。随着国际化与教育的发展，语言一定会越来越通用化和官方化，让用户使用较为通用的官方语言（支持一定程度上的语法不规范）来操作一个产品并不苛刻。

更重要的是，在技术尚不成熟的情况下，针对一种语言进行良好的语义理解已属不易，分散研发力量支持多种语言必然会导致效果的下降。与其给用户提供n条不靠谱的路，不如集中精力先给出一条靠谱的来。

（2）特定领域与场景

谈话的内容往往与领域强相关，好比在谈论汽车领域的问题时，医疗领域的内容就很难出现在谈话中。

所以，在开发对话产品时，要明确这个产品是解决什么领域的问题：是一个用于电商的智能客服，还是用来查天气讲笑话逗乐的陪聊机器人。明确了产品应用的领域之后，所对应涉及到的语料数据就局限了很多，便于更好地进行覆盖。

同样的领域还可以进一步分为不同的场景。比如开发一个面向汽车行业的对话产品，既可以针对售前场景解答客户买车时的疑问，也可以针对售后场景解答客户购车之后所遇到的问题，还可以通过与客服人员对话来训练他们的基本话术。在垂直领域的基础上细分特定场景可以获得更加局限的语料范围。

当然，一个对话产品也可以同时支持多个领域与场景，但仍然需要针对每个领域和场景分别进行训练和开发，然后进行集成。好比一个人可以同时掌握多项技能，但这些技能需要一项项的学习。

（3）特定打开方式

现阶段的对话产品很难强大到让用户想怎么说就怎么说，所以对话产品应该设定一种对用户使用有所限定，且仍能让用户觉得它有价值的“打开方式”。

比如对于智能客服产品，如果立足于完全替代企业的客服人员，那么企业购买之后肯定会发现这个产品并不能达到宣称的效果，必定会吐槽产品难用、虚假宣传。

如果换一种打开方式，正视产品的局限性，把立足点从完全替代人工转变成“机器回答60%标准问题，客服回答其他40%问题”的部分替代人工，那么它就成为了一个技术可以实现且同样对企业有价值的产品。

（智能客服部分替代人工）

总结

NLP是CUI交互中“听懂——理解——回答”闭环的灵魂：机器无法理解用户说话的意思，就没有资格谈交互。

NLP有很多应用领域，包括文本分类、文本摘要、机器翻译、舆情监测与对话系统等。一个比较简单的对话系统主要会涉及分词、词性标注、特征提取、分类检索等技术；复杂的对话系统还会涉及指代消解、成分补全、命名实体识别等技术。

NLP是人工智能的高枝果实，人类目前的研究积累还非常初级。它的难度来源于两个层面：一是语言本身的变化非常多，二是语言所传递的信息往往和上下文有关。

即便NLP在技术上还很不完善，但仍然需要积极的将现有技术成果落地应用。开发对话产品时，可通过支持特定语言、应用于特定领域与场景、明确特定的打开方式三个方面来规避技术的不成熟，获得可用的产品。

依惯例，最后奉上一张图作为总结。

最后编辑于：2017.12.09 15:07:57

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,937评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,503评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,712评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,668评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,677评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,601评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,975评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,637评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,881评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,621评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,710评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,387评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,971评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,947评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,189评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,805评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,449评论 2赞 342

CUI三部曲之自然语言处理——机器如何理解你的话？

NLP与对话系统

人工智能的高枝果实

产品只求恰到好处

总结

推荐阅读更多精彩内容