基于TF-IDF的特征提取技术
物品画像的特征标签包括比较直接明显的特征,如导演,演员等,也包括比较隐性的特征,如电影简介,图书摘要等。当我们需要提取的特征很那进行量化时,我么就需要考虑使用一些其他技术。如自然语言处理,信息检索等。
TF-IDF算法便是在NPL领域中比较广泛的一种算法。可以用来提取目标文件,并得到关键词用于计算对于目标文件的权重,并将这些权重组合到一起得到特征向量。
TF - 词频
IDF - 逆文档频率
TF-IDF权重 - wij=TF · IDF
结论 - TF-IDF值与词语在文档中出现的频率成正比,与该词语在整个文件集中出现的频率成反比。
Stop Words - 停用词 对文档中心思想表达没有意义的词进行过滤。