推荐系统实践-利用用户标签数据

根据维基百科的定义,标签是一种无层次化结构的、用来描述信息的关键词,它可以用来描述物品的语义。
根据给物品打标签的人的不同,标签应用一般分为两种:
一种是让作者或者专家给物品打标签;
另一种是让普通用户给物品打标签,也就是UGC(User Generated Content,用户生成的内容)的标签应用。
标签系统的不同作用:表达,组织,学习,发现,决策
Delicious的标签分类:物品是什么,物品的种类,谁拥有物品,用户的观点,相关的标签,用户的任务

得到物品之间的相似度以后,可以通过以下公式计算推荐列表的多样性:


代码如下:

def Diversity(item_tags, recommend_items):
    ret = 0
    n = 0
    for i in recommend_items.keys():
        for j in recommend_items.keys():
            if i == j:
                continue
            ret += CosineSim(item_tags, i, j)
            n += 1
    return ret/(n*1.0)

至于推荐系统的新颖性,我们简单地使用推荐结果的平均热门程度(AveragePopularity)度量。对于物品i,定义它的流行度item_pop(i)为给这个物品打过标签的用户数。而对推荐系统,我们定义它的平均热门度如下:


一个简单的标签算法:
①统计每个用户最常用的标签;
②对于每个标签,统计被打过这个标签次数最多的物品;
③对于一个用户,首先找到他常用的标签,然后找到具有这些标签的最热门物品推荐给这个用户
兴趣公式如下:


B(u)是用户u打过标签的集合,B(i)是物品i被打过的标签集合,n(u,b)是用户u打过标签b的次数,n(b,i)是物品i被打过标签b的次数
算法的改进
1.TF-IDF
前面的公式造成推荐热门物品给用户的情况,降低了结果的新颖性。我们可以借鉴TF-IDF的思想,对这一公式改进:

同理,我们可以借鉴TF-IDF的思想对热门物品进行惩罚:
Paste_Image.png

试验结果表面,适当惩罚热门标签和物品,在增进推荐结果的同时并不会降低推荐结果的离线精度
2.数据的稀疏性
可以使用标签集合进行扩展。如果认为不同标签具有某种相似度,那么当两个标签同时出现在很多物品的标签集合中时,我们就可以认为这两个标签具有较大的相似度。对于标签b,另N(b)为有标签b的物品的集合,n(b,j)为物品i打上标签b的用户数,我们可以通过如下余弦相似度公式计算标签b和标签b'的相似度:

3.标签清理
①去除词频很高的停止词;
②去除因词根不同造成的同义词;
③去除因分隔符造成的同义词
基于图的推荐算法


上图是一个简单的SimpleTagGraph例子,可以使用第二章提到的PersonalRank算法。用户对物品的兴趣公式如下:

基于标签的推荐解释
Jesse VIg设计了4种标签解释的展示界面:
①RelSort:对推荐物品做解释时使用的是用户以前使用过且物品上有的标签,给出了用户对标签的兴趣和标签与物品的相关度,但标签按照和物品的相关度排序;
②PrefSort:对推荐物品做解释时使用的是用户以前使用过切物品上有的标签,给出了用户对标签的兴趣和标签与物品的相关度,但标签按照用户的兴趣程度排序;
③RelOnly:对推荐物品做解释时使用的是用户以前使用过且物品上有的标签,给出了标签于物品的相关度,且标签按照和物品的相关度排序;
④PrefOnly:对推荐物品做解释时使用的是用户以前使用过且物品上有的标签,给出了用户对标签的兴趣程度,且标签按照用户的兴趣程度排序
然后,作者调查了用户对不同类型标签的看法,作者将标签分为主观类(比如对电影的看法)和客观类(比如对电影内容的描述)
结果调查问卷的统计,作者得出以下结论:
①用户对标签的兴趣对帮助用户理解为什么给他们推荐某个物品更有帮助;
②用户对标签的兴趣和物品标签相关度对于帮助用户判定自己是否喜欢被推荐物品具有同样的作用;
③物品标签相关度对于帮助用户判定被推荐物品是否符合他当前的兴趣更有帮助;
④客观事实类标签相比主观感受类标签对用户更有作用
给用户推荐标签
一般认为,给用户推荐标签有以下好处:
①方便用户输入标签
②提高标签质量
有4种方法给哦用户推荐和物品i相关的标签:
0:给用户推荐系统里热门的标签;
①:给用户推荐此物品上最热门的标签;
②:给用户推荐自己经常用的标签;
③:前两种的融合
试验证明,最后一种方法在合适的参数下效果最好
基于图的标签推荐算法
在根据用户打标签的行为生成图之后,我们可以利用PersonalRank算法进行排名。我们可以重新定义顶点的启动概率,如下所示:


也就是说,只有用户u对物品i对应的顶点有非0的启动概率。参数α可以通过离线试验选择

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容