词频TF
TF = 某个词在文章中的出现次数
TF = 某个词在文章中的出现次数 / 文章总词数
TF = 某个词在文章中的出现次数 / 拥有最高词频的词的次数
逆文档频率IDF
语料库(corpus)模拟语言的使用环境。
IDF = log(语料库的文档总数 / (包含该词的文档总数 + 1))
TF-IDF
TF-IDF = TF * IDF
TF = 某个词在文章中的出现次数
TF = 某个词在文章中的出现次数 / 文章总词数
TF = 某个词在文章中的出现次数 / 拥有最高词频的词的次数
语料库(corpus)模拟语言的使用环境。
IDF = log(语料库的文档总数 / (包含该词的文档总数 + 1))
TF-IDF = TF * IDF