Lesson 13 相似文章推荐
在用户阅读某篇文章时,为用户推荐更多与在读文章内容相类似的文章。
推荐(Recommended):介绍好的人或者事物,希望被任用或者接受。数据挖掘领域,推荐包括相似推荐以及协同过滤推荐
相似推荐(Similar Recommended):当用户表现出对某人或者某物感兴趣时,为他推荐与之相似的人或者物,核心定理:人以群分,物以类聚
协同过滤推荐(Collaborative Filtering Recommendation):利用已有用户群过去的行为或意见,预测当前用户最可能喜欢哪些东西或对哪些东西感兴趣
相关文章推荐的主要原理-余弦相似度(cosine similarity)
用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似
计算过程
Step 1: 分词,去重后生成语料库
Step 2: 根据生成的语料库,统计词频(向量化),生成的matrix要对应语料库的顺序,在文章中未出现的词语,词频为0
Step 3: 计算余弦相似度
余弦距离计算
sklearn.metrics.pairwise_distances
matrix: 矩阵
metric="cosine"
Lesson 14 自动摘要
摘要:全面准确地反映某一文献中心内容的简单连贯的短文
自动摘要:利用计算机自动地从原始文献中提取摘要
算法原理-余弦定理
摘要步骤
获取需要摘要的文章
对该文章进行词频统计
对该文章进行分句(利用中文标点符号)
计算分句与文章之间的余弦相似度
取相似度最高的分句,作为文章的摘要