五分钟了解信息流产品和内容推荐算法
作者:也而
如何评估推荐质量
一个信息流产品,不会仅仅使用一种算法模型,通常会进行分流。占大比重的是经过验证的稳定模型,同时,会有多个占小比重的实验模型。
要评估这些实验算法模型的效果,采用的评测指标主要为以下三项:
- 准确率:推荐列表里,多少比例的文章,是用户读过的
- 召回率:推荐列表中,用户读过的文章,占用户阅读记录的比例
- 覆盖率:推荐列表里的文章,占文章库总数的比例
举例来说,文章总量为 100,用户实际看了 10 篇文章。最终实验模型推荐了20篇文章,用户看过的有 8 篇。准确率为 40%,召回率为 80%,覆盖率为 20%。
除此以外,还需关注的核心业务指标:- UV 转化率:阅读 UV / 曝光 UV,反映多少比例的曝光用户转化为阅读用户
- PV 转化率:阅读 PV / 曝光 PV,反映文章的平均转化情况
- 人均篇数:阅读 PV / 阅读 UV,反映内容消费深度
- 人均阅读时长:阅读总时长 / 阅读 UV,反映内容消费深度
为什么要看多个指标,不能只关注点击率呢?是因为一味追求点击率,会鼓励「标题党」,导致用户文章阅读完成度降低,最终影响产品调性,造成深度用户流失。
深度丨从零搭建推荐体系
作者:JinkeyAI
千人一面
在产品上线初期,无论使用人数,还是内容,都相对较少,还未有足够数据支撑用户相关行为以及趋势,所以在此阶段,以收集用户行为、属性为最高目的,先达成最粗略的推荐行为,也就是判断哪些用户是疑似某一细化方向的目标用户,仅此即可。应该分为两个方向来考虑这个问题,新用户和老用户,对于新用户只能从环境熟悉和可能的物理属性进行判断,老用户可以全方位多维度判断,详见第二章,这里不多做叙述。
所以在当前阶段,主要目标就是收集用户行为,一切行为均不能遗漏,这也就是前文所说的,先围绕每个人建立一套粗略喜好标签模型,此阶段希望的是实时调整,根据用户使用频次和动作来决定,一定要快,因为刚刚上线,用户随时有可能离开。在用户随手点击内容以后回到首页的时候发现已经有较为感兴趣的内容了,那种好感度是不一样的。
千人十面
在这个阶段,已然有之前的用户行为的基础数据作为支持了,所以我们首先要做的就是将用户分组,将有相似喜好的用户找到,方法就是用最经典的向量算法里的夹角余弦,每个用户直接都要分别计算,不过好再现阶段用户量级不多,可以大量计算。计算依据也就是根据之前用户的相关操作行为,给用户打上的相关标签,按照标签相似度来给用户进行聚类。
所以在聚类完成后,一定会获得离别内某种同样的特征值,所以这也就完成了第二阶段的工作,每个类别内的用户进行相同的内容展示。
而且我们已经知道了喜爱不同项目之间的用户特征属性,这时候再进来的用户,我们也就可以相应的放在疑似库里了,等到收集到相应的新用户行为,也就能确定这个新用户的相关喜好方向了,成本会减小很多。所以在这个阶段,要尽量收集全,时间可以控制在2周左右,为下一步更加精准的推荐做准备。
浅谈推荐系统基础
推荐系统评测指标
- 用户满意度
- 预测准确度
- 覆盖率
- 多样性
- 新颖性
- 惊喜度
- 信任度
- 实时性
- 健壮性
- 商业目标
UGC社区推荐系统的几点思考
作者:Holy俊杰
每个人每天大脑能消耗的能量是有限的,我们可以称之为心智能量。所有需要大脑参与的活动都需要消耗心智能量。用户看一个视频消耗的心智能量是很小的,几乎不需要大脑参与。刷到美丽小姐姐跳舞,我会睁大眼睛;刷到主播撩拨笑点,我会咧嘴一笑;我需要做的就只是动动尊贵的手指,上翻、下翻、双击。全程几乎只需要下丘脑参与。
可是,阅读就不一样了。我要找个安静舒服的地方,全神贯注地理解文字背后作者想表达的意思,需要调动大量的脑神经元。如果是140字的短微博,或者知乎上抖机灵的回答,阅读起来还能一乐。如果是有复杂的辩证论述,或抽象概念的文章,读完一篇,明显感觉有些累。要消耗这么大的心智能量,我一天的阅读极限是五篇这样的文章,还是全网份额。那简书平台人均每天阅读量是多少呢?
那么,推荐系统的极限就是帮助平台无限逼近平台的极限。
持续更新,收集学习简书上科普推荐系统的文章。
关于简书首页算法推荐的反馈也欢迎和我或 @Holy俊杰 交流。