NLP之gensim库python实现文本相似度/匹配/查重

目的

给定一个或多个搜索词，如“高血压患者”，从已有的若干篇文本中找出最相关的(n篇)文本。

理论知识

文本检索（text retrieve）的常用策略是：用一个ranking function根据搜索词对所有文本进行排序，选取前n个，就像百度搜索一样。

算法：模型选择

1、基于word2vec的词语相似度计算模型
2、python的实现用到了gensim库
3、“jieba”中文分词

分步实现：

jieba.cut

方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用
   HMM 模型

构建停用词表

"""分词、去停用词"""
# stopwords =["项目",'招标','中标', '公告', '标题']  # 停用词
stopwords = []
stopwords = [ w.strip() for w in stopwords ]

结巴分词后的停用词性 [标点符号、连词、助词、副词、介词、时语素、‘的’、数词、方位词、代词]

# stop_flag = ['x', 'c', 'u', 'd', 'p', 't', 'uj', 'm', 'f', 'r']  # 停用词性
stop_flag = []

对一篇文章分词、去停用词

def tokenization(filename):
    result = []
    with open(filename, 'r') as f:
        text = f.read()
        words = pseg.cut(text)
    for word, flag in words:
        if flag not in stop_flag and word not in stopwords:
            result.append(word)
    return result

对目录下的所有文本进行预处理，构建字典

corpus = [];
dirname = 'demo/articles'
filenames = []
for f in files:
    corpus.append(tokenization(text))
    filenames.append(text)
dictionary = corpora.Dictionary(corpus)
print len(dictionary)

建立词袋模型

 # 生成词向量
    doc_vectors = [dictionary.doc2bow(text) for text in corpus]  # 语料库

建立TF-IDF模型

# 生成TF-IDF模型
tfidf = models.TfidfModel(doc_vectors)  # TF-IDF模型对语料库建模
tfidf_vectors = tfidf[doc_test_vec]  # 每个词的TF-IDF值

相似矩阵计算相似度

index = similarities.MatrixSimilarity(tfidf[doc_vectors])
sim = index[tfidf[doc_test_vec]]   # 获取分值索引
print(sim)

相似度排序

scores=sorted(enumerate(sim), key=lambda item: -item[1])  # 排序
print(scores[0][1])  # 输出分值

结果示例：

测试数据为： 富宁县里达中学宿舍楼建设项目
匹配结果集（匹配度从大到小）  [(2, 1.0), (31, 0.07981655), (43, 0.077732354), (33, 0.06620947), (30, 0.065360494), (14, 0.061563488), (6, 0.05077639), (22, 0.05062699), (7, 0.044322222), (42, 0.044024862), (21, 0.043359876), (26, 0.035853535), (27, 0.03457492), (29, 0.033902794), (45, 0.03236963), (25, 0.031936638), (40, 0.030814772), (48, 0.030788476), (20, 0.027607089), (8, 0.02558621), (11, 0.024541285), (5, 0.024447413), (28, 0.020779021), (4, 0.020459857), (13, 0.015429099), (34, 0.014453442), (50, 0.011855431), (36, 0.006562164), (0, 0.006476198), (32, 0.0051991176), (46, 0.00477116), (35, 0.0047449875), (38, 0.004728446), (18, 0.004499278), (41, 0.004158474), (44, 0.0037516006), (47, 0.0036311403), (15, 0.003384664), (37, 0.00318741), (23, 0.0030692797), (17, 0.0022487652), (39, 0.0020392523), (24, 0.0016430109), (12, 0.0014699087), (1, 0.0), (3, 0.0), (9, 0.0), (10, 0.0), (16, 0.0), (19, 0.0), (49, 0.0)]
分析结果为:中标项目：富宁县里达中学宿舍楼建设项目   最大匹配度为 1.0

测试数据为： 湿地保护与恢复建设工程
匹配结果集（匹配度从大到小）  [(13, 0.57420367), (40, 0.10633894), (48, 0.106248185), (43, 0.10532686), (49, 0.0816016), (12, 0.077999234), (31, 0.07725123), (25, 0.07712983), (11, 0.058984473), (50, 0.05736675), (7, 0.047928438), (34, 0.04754001), (33, 0.04504219), (30, 0.038571842), (22, 0.037484765), (27, 0.03233484), (45, 0.031974725), (14, 0.0313408), (26, 0.030683806), (5, 0.030661184), (2, 0.026870431), (4, 0.02638424), (8, 0.026375605), (20, 0.02581845), (35, 0.024404963), (32, 0.019936334), (28, 0.019432766), (44, 0.018292043), (42, 0.018038727), (38, 0.01745583), (6, 0.017230202), (17, 0.015729848), (46, 0.013131632), (29, 0.012461022), (19, 0.0117950225), (47, 0.0064870343), (0, 0.0), (1, 0.0), (3, 0.0), (9, 0.0), (10, 0.0), (15, 0.0), (16, 0.0), (18, 0.0), (21, 0.0), (23, 0.0), (24, 0.0), (36, 0.0), (37, 0.0), (39, 0.0), (41, 0.0)]
分析结果为:中标项目：四川省若尔盖国际重要湿地保护与恢复建设工程第1标段   最大匹配度为 0.57420367

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

NLP之gensim库python实现文本相似度/匹配/查重

目的

理论知识

算法：模型选择

分步实现：

构建停用词表

建立词袋模型

建立TF-IDF模型

相似矩阵计算相似度

相似度排序

结果示例：

推荐阅读更多精彩内容