Doc2vec段落向量的训练方法,与训练词向量类似,段落向量的训练分为训练数据预处理和段落向量训练两个步骤。
- 训练数据预处理:对段落进行分词处理(中文分词);
- 段落向量训练:
TaggedDocument()
这里对于文档一般有两种策略:
- 直接对doc整体进行ID标记,一个sentence中包含岗位描述的所有单词;
- 以
;
和。
来进行句子划分,一个sentence中仅包含的岗位描述中的一句的单词,检索时以单个句子来进行检索;
这里以第一种方式为例来介绍:
首先是去停用词处理以及分词,这里的分词文件可以自己在网上找一下,有很多
# 创建停用词list
def stopwordslist(filepath):
stopwords = [line.strip() for line in open(filepath, 'r').readlines()]
return stopwords
# 对句子进行分词
def seg_sentence(sentence, stopwords):
sentence_seged = jieba.cut(sentence.strip())
outstr = ''
for word in sentence_seged:
if word not in stopwords:
if word != '\t':
outstr += word
outstr += " "
return outstr
参考地址:PYTHON3.6对中文文本分词、去停用词以及词频统计
分词完以后,数据形式变为:
构建doc2vec
模型进行训练
from gensim.models import Doc2Vec
# 根据TaggedDocumnet生成训练语料
documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(jd_df['doc_word'])]
model = Doc2Vec(documents,dm = 1, alpha=0.1, size= 20, min_alpha=0.025)
model.train(documents, total_examples=model.corpus_count, epochs=20)
model.save('model/d2vmodel')
应用doc2vec
模型
# 模型加载
model_dm = Doc2Vec.load("model/d2vmodel20210422")
# 模型预测
test_text = ['独立','工程','预算','编制']
inferred_vector_dm = model_dm.infer_vector(test_text)
sims = model_dm.docvecs.most_similar([inferred_vector_dm], topn=10)
向量效果验证
print(test_text)
for raw_index, sim in sims:
sentence = documents[raw_index]
print(sentence, sim, len(sentence[0]))
其实doc2vec的原理比较好理解,相当于将doc id或者说是sentence id当做一个单词来和该doc或者sentence中单词一起训练来学习它们的极大似然,以此来学习到该sentence id对应的sentence中包含的word的关系。
可以参考下面两张w2v和d2v的结构图来理解;
参考地址:
[1] 基于DOC2VEC的段落向量训练及文本相似度计算
[2] Doc2vec原理解析及代码实践