在进行word2vecde 词向量的使用之前,需要对数据进行结巴分词(import jieba)
需要训练的数据路径:
path = "c:\\User\\Administrator\\train.txt"
保存的路径:
"c:\\User\\Administrator\\cut_file.txt"
结巴完成之后保存数据。
进行word2vec数据的训练,把完成保存,数据类型为.bin(二进制文件)(可以新建一个文本文件,打开,另存为,设置为.bin格式)
对训练完成的数据进行使用。
gensim.models.KeyedVectors.load_word2vec_format("C:\\Users\\Administrator\\data_ci.bin",binary = True)
这里需要注意的是:原先的word2vec.Word2Vec("C:\\Users\\Administrator\\data_ci.bin",binary = True)方法已经被弃用。
需要用:gensim.models.KeyedVectors.load_word2vec_format方法。
最后,使用
model.most_similar("需要查找的关键词",topn=n) n为查找几个 与需要查找的关键词 相关的匹配度。
---------------------
作者:不要怂,就是干
来源:CSDN
原文:https://blog.csdn.net/weixin_42013825/article/details/87900469
版权声明:本文为博主原创文章,转载请附上博文链接!