推荐系统(二)纬度考量

前章:http://www.jianshu.com/p/7abcecdb83ef


在设计推荐系统之前,我们需要明确什么才是一个好的推荐系统,指标有哪些。

用户期望

用户想看什么内容呢?

用户正在寻找某一个内容,我们就把这个东西推荐给他了;

用户最近对某一类内容非常感兴趣,我们就把这一类的优质内容推荐给用户;

用户完全没有目标,但是我们根据用户行为推荐了一个内容,用户看到之后,觉得这个内容真的很好,发现了新世界!

根据这些场景,我们应该怎么设计我们的推荐系统呢?有哪些指标呢?

衡量指标

预测的准确性

我们推荐出来的商品用户是否喜欢,是否准确?我喜欢烧脑剧情片,结果推荐出来一个超级英雄片,这肯定是不适合的。

我们可以统计用户数据,然后按照时间纬度,将基础数据分成基础数据(训练集)和校验数据(测试集),我们在基础数据中建立用户模型,然后预测用户在测试集的行为。最后通过对比预测数据与用户在测试集的真是行为,得出我们的预测准确度。

时效性

时效性有两个纬度,一个用户行为纬度,一个内容纬度。

从用户行为来说,用户现在刚刚浏览一个招聘信息,那就应该及时的向用户其他的招聘网站或者相关企业招聘。如果不够及时,后续才推荐,那么不但达不到推荐效果,还可能对用户造成干扰。

从内容纬度来说,基础数据要权衡好新老内容。以新浪微博为例:新的热点内容,因为触达的用户较少,热度较低,指标可能都不如老内容。那么如何保证新的热点内容,及时推荐给用户?保证用户同时接触到新内容,和经过沉淀的优质内容?

推荐系统需要在设计时,将时间也作为一个指标,保证新内容茁壮生长,老的内容慢慢死亡。

覆盖率

覆盖率指的是被推荐的商品占总商品的比例,随着长尾理论,我们需要保证小众的内容也能顺利地推送给用户,这也是推荐系统的魅力,将平常很难接触到的内容推荐给用户,让用户发现要给新天地。

衡量方法:我们可以统计所有的产品被推荐的次数,按照次数进行排序做一张物品流行度分布表,如果曲线非常陡峭,说明推荐主要集中在热门商品,不利于内容的覆盖率;如果曲线比较平缓 ,说明对长尾内容覆盖的比较好,用户理论上容易发现更广阔的世界。

多样性

每个人都是一个复杂的人,兴趣是非常复杂的,比如我既喜欢看恐怖电影,也喜欢看热血动漫,假如只推荐一种类型的信息,用户非常容易的疲劳。所以我们需要基于相似用户也喜欢的方式,给用户推荐少量的其他类别的信息,来引导用户发现更多感兴趣的内容。

在安排多样性内容的时候,建议采取2/8定律,多样性的内容总占比保持在20%左右

惊喜度serendipity

什么叫惊喜的推荐结果?推荐结果和用户的历史兴趣不相似,但是用户却非常满意!这就是惊喜。由于与用户的历史兴趣相似度很小,无法通过基于内容的推荐方式,只能通过相似用户也喜欢的方式或者这种推荐结果。

商业价值

作为系统设计者,为了实现商业价值。人为推送内容到用户的推荐系统中。这个时候我们必须非常谨慎小心,时时关注推荐效果,用户对于这些推荐内容的感受,实际的商业收益等等指标。要避免因一次失败的商业活动,摧毁用户对于我们推荐系统的信任度。推荐系统的商业化需要谨慎进行。

一般建议采取A/B test的方法,对照被人为推送内容的用户与未推送内容的用户之间的区别,整个推荐系统的内容的关注度是否降低/增长了?推广的效果如何,有无达到商业目的?

健壮性

将内容推荐给用户,增加了内容的曝光度。那么就会有很多内容的提供度,会人为的干扰推荐结果,例如淘宝刷单,微博水军等等。

至于提高健壮性的方法,太广太大,这里简说一下看法:横向对比。以刷单为例,用户的横向对比,大量的淘宝小号,刷好评,刷销量。那么在系统上这些小号,肯定存在一些特征:例如购买的东西一般都是促销商品,每周购买大量同类的,单价低的商品,确认收货的速度很快,商品评价描述单一等等;商品纬度:可以检测单品的热度,如果某个单品在同类别热度增长异常,就触发系统预警,进行多纬度的检查。

系统能做的就是不断增加系统的健壮性,提高干扰的难度。提高健壮性是一个长期斗智斗勇的工作。

判断健壮性的方式:建立一个训练集,计算出推荐结果A;然后进行人为攻击干扰,重新计算推荐结果B;对比A和B,就可以计算出系统的健壮性。

思考的纬度

用户纬度

用户是否得到了自己感兴趣的内容?

物品纬度

物品是否被合适的推送给用户了?

时间纬度

是否在合适的时间,将内容推送给用户?

空间纬度

是否在合适地点,将内容推送给用户?这是非常常见的O2O场景。



未完待续


引申阅读:部分内容参考自《推荐系统实践》项亮编,很不错的书,欢迎大家阅读

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容