自然语言处理(NLP)基础理解

人工智能的目标

-    推理
-    自动学习&调度
-    机器学习
-    自然语言处理
-    计算机视觉
-    机器人
-    通用智能

人工智能三大阶段

 阶段 1——机器学习：智能系统使用一系列算法从经验中进行学习。

 阶段 2——机器智能：机器使用的一系列从经验中进行学习的高级算法，例如深度神经网络。人工智能目前处于此阶段。

 阶段 3——机器意识：不需要外部数据就能从经验中自学习。

image.png

人工智能的类型

ANI（狭义人工智能）：它包含基础的、角色型任务，比如由 Siri、Alexa 这样的聊天机器人、个人助手完成的任务。

AGI（通用人工智能）：通用人工智能包含人类水平的任务，它涉及到机器的持续学习。

ASI（强人工智能）：强人工智能指代比人类更聪明的机器。

什么使得系统智能化？

image.png

自然语言处理 | 知识表示 | 自动推理 | 机器学习

什么是自然语言处理？

自然语言处理（NLP）是指机器理解并解释人类paralyzes写作、说话方式的能力。

NLP 的目标是让计算机／机器在理解语言上像人类一样智能。最终目标是弥补人类交流（自然语言）和计算机理解（机器语言）之间的差距。

image.png

下面是三个不同等级的语言学分析：

句法学：给定文本的哪部分是语法正确的。
语义学：给定文本的含义是什么？
语用学：文本的目的是什么？

NLP 处理语言的不同方面，例如：

音韵学：指代语言中发音的系统化组织。
词态学：研究单词构成以及相互之间的关系。

NLP 中理解语义分析的方法：

分布式：它利用机器学习和深度学习的大规模统计策略。

框架式：句法不同，但语义相同的句子在数据结构（帧）中被表示为程式化情景。

理论式：这种方法基于的思路是，句子指代的真正的词结合句子的部分内容可表达全部含义。

交互式（学习）：它涉及到语用方法，在交互式学习环境中用户教计算机一步一步学习语言。

为什么需要 NLP ?

有了 NLP，有可能完成自动语音、自动文本编写这样的任务。

由于大型数据（文本）的存在，我们为什么不使用计算机的能力，不知疲倦地运行算法来完成这样的任务，花费的时间也更少。

这些任务包括 NLP 的其他应用，比如自动摘要（生成给定文本的总结）和机器翻译。

NLP流程

如果要用语音产生文本，需要完成ASR任务。

NLP 的机制涉及两个流程：

自然语言理解
自然语言生成

自然语言理解（NLU)

NLU 是要理解给定文本的含义。本内每个单词的特性与结构需要被理解。在理解结构上，NLU 要理解自然语言中的以下几个歧义性：

词法歧义性：单词有多重含义

句法歧义性：语句有多重解析树

语义歧义性：句子有多重含义

回指歧义性（Anaphoric Ambiguity）：之前提到的短语或单词在后面句子中有不同的含义。

接下来，通过使用词汇和语法规则，理解每个单词的含义。
然而，有些词有类似的含义（同义词），有些词有多重含义（多义词）。

自然语言生成(NLG)

NLG 是从结构化数据中以可读地方式自动生成文本的过程。难以处理是自然语言生成的主要问题。

自然语言生成可被分为三个阶段：

文本规划：完成结构化数据中基础内容的规划。
语句规划：从结构化数据中组合语句，来表达信息流。
实现：产生语法通顺的语句来表达文本。

NLP 与文本挖掘（或文本分析）之间的不同

自然语言处理是理解给定文本的含义与结构的流程。

文本挖掘或文本分析是通过模式识别提起文本数据中隐藏的信息的流程。

自然语言处理被用来理解给定文本数据的含义（语义），而文本挖掘被用来理解给定文本数据的结构（句法）。

image.png

例如，在 "I found my wallet near the bank "一句中，NLP 的任务是理解句尾「bank」一词指代的是银行还是河边。

大数据中的 NLP：The next Big Thing

如今所有数据中的 80% 都可被用到，大数据来自于大公司、企业所存储的信息。例如，职员信息、公司采购、销售记录、经济业务以及公司、社交媒体的历史记录等。

尽管人类使用的语言对计算机而言是模糊的、非结构化的，但有了 NLP 的帮助，我们可以解析这些大型的非结构化数据中的模式，从而更好地理解里面包含的信息。

NLP 可使用大数据解决商业中的难题，比如零售、医疗、金融领域中的业务。

聊天机器人

聊天机器人或自动智能代理指代你能通过聊天 app、聊天窗口或语音唤醒 app 进行交流的计算机程序。
也有被用来解决客户问题的智能数字化助手，成本低、高效且持续工作。

聊天机器人的重要性

    聊天机器人对理解数字化客服和频繁咨询的常规问答领域中的变化至关重要。

    聊天机器人在一些领域中的特定场景中非常有帮助，特别是会被频繁问到高度可预测的的问题时。

聊天机器人的工作机制

image.png

基于知识：包含信息库，根据客户的问题回应信息。

数据存储：包含与用户交流的历史信息。

NLP 层：它将用户的问题（任何形式）转译为信息，从而作为合适的回应。

应用层：指用来与用户交互的应用接口。

聊天机器人每次与用户交流时都能进行学习，使用机器学习回应信息库中的信息。

NLP 中为什么需要深度学习

它使用基于规则的方法将单词表示为「one-hot」编码向量。

传统的方法注重句法表征，而非语义表征。

词袋：分类模型不能够分别特定语境。

image.png

深度学习的三项能力

可表达性：这一能力描述了机器如何能近似通用函数。

可训练性：深度学习系统学习问题的速度与能力。

可泛化性：在未训练过的数据上，机器做预测的能力。

在深度学习中，当然也要考虑其他的能力，比如可解释性、模块性、可迁移性、延迟、对抗稳定性、安全等。但以上是主要的几项能力。

NLP 中深度学习的常见任务

image.png

传统 NLP 和深度学习 NLP 的区别

image.png

日志分析与日志挖掘中的 NLP

什么是日志？

不同网络设备或硬件的时序信息集合表示日志。日志可直接存储在硬盘文档中，也可作为信息流传送到日志收集器。

日志提供维持、追踪硬件表现、参数调整、紧急事件、系统修复、应用和架构优化的过程。

什么是日志分析？

日志分析是从日志中提取信息的过程，分析信息中的句法和语义，解析应用环境，从而比较分析不同源的日志文档，进行异常检测、发现关联性。

什么是日志挖掘？

日志挖掘或日志知识发现是提取日志中模式和关联性的过程，从而挖掘知识，预测日志中的异常检测。

日志分析和日志挖掘中使用到的技术，下面介绍了完成日志分析的不同技术：

模式识别：将日志信息与模式薄中的信息进行对比，从而过滤信息的技术。

标准化：日志信息的标准化是将不同的信息转换为同样的格式。当来自不同源的日志信息有不同的术语，但含义相同时，需要进行标准化。

分类 & 标签：不同日志信息的分类 & 标签涉及到对信息的排序，并用不同的关键词进行标注。

Artificial Ignorance：使用机器学习算法抛弃无用日志信息的技术。它也可被用来检测系统异常。

日志分析 & 日志挖掘中的 NLP

自然语言处理技术被普遍用于日志分析和日志挖掘。

词语切分、词干提取（stemming)、词形还原（lemmatization）、解析等不同技术被用来将日志信息转换成结构化的形式。

一旦日志以很好的形式组织起来，日志分析和日志挖掘就能提取信息中有用的信息和知识。

深度自然语言处理

自然语言处理是一个复杂的领域，处于人工智能、计算语言学和计算机科学的交叉领域。

从 NLP 开始

用户需要输入一个包含已写文本的文件；接着应该执行以下 NLP 步骤：

image.png

语句分割 - 在给定文本中辨识语句边界，即一个语句的结束和另一个语句的开始。语句通常以标点符号「.」结束。

标记化 - 辨识不同的词、数字及其他标点符号。

词干提取 - 将一个词还原为词干。

词性标注 - 标出语句中每一个词的词性，比如名词或副词。

语法分析 - 将给定文本的部分按类划分。

命名实体识别 - 找出给定文本中的人物、地点、时间等。

指代消解 - 根据一个语句的前句和后句界定该句中给定词之间的关系。

NLP 的其他关键应用领域

除了在大数据、日志挖掘及分析中的应用，NLP 还有一些其他主要应用领域。

尽管 NLP 不如大数据、机器学习听起来那么火，但我们每天都在使用它：

自动摘要 - 在给定输入文本的情况下，摈弃次要信息完成文本摘要。

情感分析 - 在给定文本中预测其主题，比如，文本中是否包含判断、观点或评论等。

文本分类 - 按照其领域分类不同的期刊、新闻报道。多文档分类也是可能的。文本分类的一个流行示例是垃圾电子邮件检测。基于写作风格，可检测作者姓名。

信息提取 - 建议电子邮件程序自动添加事件到日历。

image.png

参考：
https://www.jiqizhixin.com/articles/2017-05-07-3
https://www.xenonstack.com/blog/overview-of-artificial-intelligence-and-role-of-natural-language-processing-in-big-data

最后编辑于：2017.12.11 01:53:09

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,937评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,503评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,712评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,668评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,677评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,601评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,975评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,637评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,881评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,621评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,710评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,387评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,971评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,947评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,189评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,805评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,449评论 2赞 342

自然语言处理(NLP)基础理解

什么是自然语言处理？

聊天机器人

日志分析与日志挖掘中的 NLP

深度自然语言处理

NLP 的其他关键应用领域

推荐阅读更多精彩内容