吾爱NLP(1)--我与自然语言处理

0、自然语言处理--NLP

0.1 数字、文本、语言

"数字、文字和自然语言处理一样，都是信息的载体，数字与语言的产生都是为了同一个目的----记录和传播信息。"
--《数学之美》

文字只是信息的载体，而非信息本身，那么不用文字，而用其它的载体（比如word2vec形式的词向量）是否一样可以储存同样意义的信息呢？这个答案是肯定的，这也是现在通信技术的基础，如果想让计算机来处理我们的人类语言、文本数据，首要的就是换一种数据的载体（表示形式）---数值化。

任何一种语言都是一种对信息进行编码的方式，而语言的语法规则就是编解码的算法，这就是语言的数学本质。

0.2 什么是自然语言处理？

自然语言处理NLP (Natural Language Processing)是研究人与计算机交互的语言问题的一门学科，自然语言处理的关键是要让计算机“理解”自然语言，是人工智能（AI）的一个核心子领域之一。

自动翻译

语义助手

自然语言处理=文本处理+机器学习。自然语言处理技术主要是让机器理解人类的语言的一门领域。在自然语言处理技术中，大量使用了编译原理相关的技术，例如词法分析，语法分析等等，除此之外，在理解这个层面，则使用了语义理解，机器学习等技术。作为唯一由人类自身创造的符号，自然语言处理一直是机器学习界不断研究的方向。按照百度机器学习专家余凯的说法“听与看，说白了就是阿猫和阿狗都会的，而只有语言才是人类独有的”。如何利用机器学习技术进行自然语言的的深度理解，一直是工业和学术界关注的焦点。

1、语言模型

宏观上：语言模型是根据语言客观事实而进行的语言抽象数学建模，是一种对应关系。语言模型与语言客观事实之间的关系，如同数学上的抽象直线与具体直线之间的关系。

简单说，语言模型就是用来计算一个句子的概率的模型。
利用语言模型，可以确定哪个词序列的可能性更大，或者给定若干个词，可以预测下一个最可能出现的词语。
按照语言模型的演进历史，大体可分为三类：文法型语言模型、统计语言模型、神经概率语言模型。

下面偷个懒，哈哈，直接从我做论文分享时的做的PPT里粘贴出来：

n-gram语言模型的应用非常广泛，最早期的应用是语音识别、机器翻译等问题。哈尔滨工业大学王晓龙教授最早将其应用到音字转换问题，提出了“语句级拼音输入法”，后来该技术转让给微软，也就是后来的微软拼音输入法。从windows95开始，系统就会自动安装该输入法，并在以后更高版本的windows中和Office办公软件都会集成最新的微软拼音输入法。n年之后，各个输入法的新秀（如搜狗和谷歌）也都采用了n-gram技术。

基于神经网络的语言模型
Bengio 在 2003 年提出的神经概率语言模型(Neural Probabilistic Language Model, NPLM)是影响较大的基于神经网络的语言模型1。其模型思想其实和 N-gram 语言模型还是同出一源，即基于 N-1 阶马尔可夫假设，认为句子中某个词是由其前面的 N-1 个词决定的。模型使用的网络结构如下图所示。
这个模型将 N-1 个词的表示拼接起来作为输入，然后去预测下一个词最有可能是哪个。输出层会是一个很大的向量，每一维的值就是每一个可能的词的条件概率，这样要计算一个句子的概率也就没问题了。

**这样基于神经网络的语言模型有什么好处呢？ **

N-gram 需要显式存储每个 N-gram 的内容和概率，于是模型体积会随着语料的扩充而膨胀，但 NPLM 没有这个问题。
N-gram 需要应用各种平滑方法来解决零概率问题，但 NPLM 不存在这个问题，即使是语料中没出现的 N-gram ，依然能给出非 0 的概率值。
模型中会学习一个固定长度的向量来表示一个词，且向量中各维度的值都是连续实值而非离散的 0/1 ，此即词向量「Word Embedding」的较早形式。

2、文末总结

理解各种语言模型，是理解计算机如何处理语言、文本等信息的基础，在NPLM模型中，我们也提到了词向量，这里后续深度学习技术能够应用到自然语言处理中来的一个重要的理论基础，在学习深度学习在NLP中大展神威之前我们首先需要系统的了解词向量的由来以及常用的表示形式，还有一个非常重要的获取词向量的工具---word2vec，它的理论来源可以理解为是作者Tomas Mikolov对NLPM模型的延伸拓展。
有时间的话，我会继续从词向量-->word2vec-->doc2vec-->文本分类-->......的流程继续往下写，这也是我入门NLP时的学习路线。

最后编辑于：2018.07.03 19:02:54

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,445评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,889评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,047评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,760评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,745评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,638评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,011评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,669评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,923评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,655评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,740评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,406评论 4赞 320
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,995评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,961评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,023评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,483评论 2赞 342