0x09 文本相似性，词袋向量化

摘要：机器学习处理文字、语音、图片、视频等任务，很重要的一点就是从原始信息中提取出机器可以理解的特征。一篇文章通常由大量的词语组成，在转换为向量的过程中，首先便会遇到抽取词语的问题。对抽取出的词语，进行向量后，然后便可以计算向量之间的相似性了。

0x09.jpg

01 自然语言
人类的语言，经过了几千年积累，已经形成了完整体系。对人而言，识别其中的意思是比较容易的。可电脑却不同，要想识别其中的字词是很困难的。

自然语言处理中，最简单的是判断两个文本的相似性。简单说，就是两段话或者两篇文档，判断他们是否表达相同的意思。又或者，发表了一篇论文，论文审核的人会去论文库里面搜索是否涉及抄袭。再比如，把10篇文档按内容描述的大意分成3个类别，即判断文档之间的相似性，把相似性高的聚在一起，这是简单的文档聚类。

机器处理文本，最重要的是提取文本的特征。扩展开来，机器学习的很多任务都需要提取特征，提取出来的特征好坏，很大程序上决定了任务结果的好坏。机器学习处理文字、语音、图片、视频等任务，很重要的就是从原始信息中提取出机器可以理解的特征，这也是基于自动特征提取的深度学习算法能火起来的主要原因。

机器只能处理数值类型的数据，首先遇到的一个问题，就是将文字的描述转换成数值类型，即后面要用到的向量。只有转换为向量后，才能通过模型来进行计算。一篇文章通常由大量的词语组成，在转换为向量的过程中，首先会遇到词语的抽取问题。对抽取出的词语，进行向量后，然后计算向量之间的相似性。

知识星球.jpeg

02 中文分词
中文最小的基本单位为字，词由字组成，词与词之间没有分隔符。不同于英文，英文每个单词之间有空格进行分隔，因此中文处理的很多地方都会用到分词。

比如，“佛陀是彻底的觉悟者”这句话，人很容易就进行了分词，佛陀/是/彻底/的/觉悟者/，但程序做不到。因为人的大脑在阅读了大量的书箱后，已经在潜移默化中积累了很多的词语，比如“佛陀”，“彻底”成词，“的”单独成词。

要想让程序识别其中的词语“佛陀”和“彻底”，最开始大家找了很多语言学家，企图让计算机能像人一样理解其中的意思，然后再来进行分词。但经过大量的尝试后，却发现效果并不理想。于是基于统计学的方式开始流行。想法就是：只简单的喂给计算机大量的文本资料，按一定的算法，让其进行统计，从中发现出哪些是可能组成词语，哪些是单字。而整个过程中，计算机并不需要理解其中的意思。

通常，如果不做深入的自然语言处理(NLP)，可以不用太关心分词使用的具体的算法。直接使用现有的库即可。Python最有名的中文分词库，应该算是Jieba（结巴）了，这个名字很形象，结巴说话是一个词一个词的说，中间有停顿，停顿的地方便是单词的分隔。

结巴支持几个模式，精确模式、全模式、搜索引擎模式，各个模式有不同的适合场景。还支持自定义词库，比如：“彻底觉悟的人便是觉者”这句话，正确的分词为：彻底/觉悟/的/人/便是/觉者，其中的“觉者”，就是佛。假设你喂给程序的文档里面不包含这个词，Jieba分词也能通过新词识别算法识别出来。

假设算法也没有识别出来，那么可能会把“觉者”这个词分成“觉”和“者”，这是不合情理的。这种情况下，可以用Jieba的自定义词库功能，将“觉者”写入文本文件，在调用结巴之前加载这个自定义词典即可。其它的一些网络新词汇，如“然并卵”，或者领域专用词汇，或者人名等都可以进行自定义。

03 词袋向量化
一段文本，究竟用一个什么样的向量来表示，才能完整的表达其中的含义，这是自然语言处理的一大核心问题。比较简单的有词袋模型和主题模型。计算文本相似性的，可以使用最简单的词袋模型。

假定一篇文档中包含的信息，可以只由其中包含的词语来描述，并且与词语在文档中的位置没有关系，这便是词袋模型，英文为bag of words，意为单词的袋子。例如，一篇文档包含大量佛陀，菩萨等词，和一篇包含大量的学校，班级的文档，只由他们包含的词语便可以知道，他们描述了两个不同的主题，因此相似性很低。

抽取文档中出现的所有词汇，放入一个袋子里面，再对袋子里的词进行一些处理，便可以完成向量化，也即使用词袋模型进行向量化。对袋子进行处理的方法中，最简单的便是统计袋子里面各个词在各文档中出现的频度数，下一节的CountVectorizer便专门做这个事情。

与对每个词进行单纯计数不一样的，还有一个方法，TF-IDF，词频和逆文档词频，这个主要用于设置文档中一些词语的权重。其原理是：文档之间的区别，通常是由在两个文档中都出现得少的词来区别，因此这些词语权重增加，那些公共出现的词的权重降低，从而达到理有效区分文档的目的。

向量化需要注意的是，要保证在两个文档在相同的向量空间里面，也即使用的词袋相同。训练数据与测试数据，必须在同一向量空间进行向量化，以保证两个向量的维度一样。这样对于后续的相似性比较，才有意义。

04 词频向量化
使用scikit-learn中的CountVectorizer来进行说明，这个方法把词袋模型中的概念基本都介绍清楚。CountVectorizer位于sklearn.feature_extraction.text中，从包名中也可以看出，这个方法用于提取文本的特征。

其中的一个参数，analyzer：使用字符还是单词对文本进行切分。在中文状态下，假定已经预先使用结巴分词对文本进行了分词，词之间用空格分开。那么使用"word"的切分方式。"char"的方式即对单字进行切分，在某些情况下会用到。假设下面句子，则可以使用char的方式：（这5个字，是写在茶壶外面一圈的5个字，从任何一个字开始的5种读法，都是可以读通，从中体会中文表达意思的强大）：

可以清心也
以清心也可
清心也可以
心也可以清
也可以清心

如果你需要处理2元词，3元词，即认为词与词的顺序是有一定关系的，每个词的出现会与前面1个或者2个词有关系，那么就可以使用n-gram（n元词），常用的有bi-gram（2元词）， tri-gram（3元词）。

依然以上面的5句话为例子，使用每个字为一个词(char的方式），且使用2元分割，则第一句话的分割为: 可以-以清-清心-心也，第二句话的分割为：以清-清心-心也-也可，其它类似。参数ngram_range即用来指定最小的元数和最大的元数。

回到CountVectorizer这个方法上来，Count即为计数的意思，假定要向量化上面“可以清心也”的前两句，使用char的分割，ngram_range使用（2，2），即只使用2元组合，则词袋为两个句子中的全部词语。词袋为：“可以，以清，清心，心也，也可”，共6个词。对照这个词袋，第一句的向量为：1，1， 1，1，1，0，第二名为：0，1，1，1，1，1。这里全为1和0，是因为我们句子很短，词都只出现1次或者不出现，实际应用中可以大于1，这便是Count的意义。当然，如果只关心词语是否出现，而不关心词出现的次数，可以加一个参数: binary=True，这个参数在一些实际问题上比较有用。

上面用了分词和分割两个描述，分词是专门针对中文的，而分割是针对CountVectorizer这个方法的。处理中文时，将中文进行分词后，使用空格进行分隔，上面方法可以直接处理。如果词中有自定义的词，而自定义的词中有特殊特号，默认的token_pattern可能不能满足，此时需要自定义这个正则表达式。token_pattern的默认的正则为：(?u)\b\w\w+\b，要求单词最少两个字符，以单词的分界进行判断。

在Scikit-learn的源码中，是这样的两条语句：

token_pattern =re.compile(self.token_pattern)
return lambda doc: token_pattern.findall(doc)

如果修改了正则表达式，可以使用re.findall(string, pattern)来测试在分词的基础上的分割，看是否满足需求。

05 向量相似性

将文字转换为向量后，计算向量的相似性相对而言就比较简单了。根据具体的问题，选择一种合适的相似性度量即可。在选择相似性的时候，也可以尝试多种，然后选择一种最合适的。

相似性度量(similarity)的方式有很多种，最常用的当然是空间中的距离度量。剩下的还有常见的余弦相似性，街区距离，杰卡德相似系数等等。Scikit-learn中两个主要地方描述了相似性度量，一个是近邻方法中的sklearn.neighbors.DistanceMetric，另一个是度量相关的sklearn.metrics.pairwise.pairwise_distances。

在选择相似性度量的时候，需要参考向量的类型，在scikit-learn中，按向量的数据类型，区分三种类型：实数型、整数型、真假二值型。比如杰卡德相似系数，就只适用于真假二值型的数据。

知识星球.jpeg

另外，如果要自己实现相似性的方法，通常而言，需要满足以下四点：

非负性：相似性不可以为负数；
相等为零：当且仅当两个向量相等时，相似性为0；
对称性：A与B的相似性等于B与A的相似性；
三角不等式：d(x, y) + d(y, z) >= d(x, z)，类似于三角形两边之和大于(等于)第三边；

在一般性的分类、聚类中，计算相似性度量之前，还需要考虑数据的量纲，尽量在相同的值域内。比如一个特征的取值范围为1000到2000，另外一个特征的取值范围为5到10，那么在计算相似性距离的时候，第一个特征会明显作为主导，第二个特征起到的作用就非常小。此时对数据进行归一化处理，将两个特征的范围都缩放到0到1或者-1到1，再进行相似性计算，就很有必要了。

最后编辑于：2018.10.09 16:53:13

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,602评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,442评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,878评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,306评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,330评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,071评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,382评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,006评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,512评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,965评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,094评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,732评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,283评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,286评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,512评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,536评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,828评论 2赞 345

0x09 文本相似性，词袋向量化

推荐阅读更多精彩内容