正式回视频组的第一周,主要在弄视频热门排行榜算法的东西,顺带为即将到来的直播打点算法做一些准备。
去了一趟珠海,和数据中心的同事沟通还算顺利,不过为了今后的策略工作不会太吃力,周末把概率论和统计学又复习了一遍,下周开始新书。
关于热门视频排行榜
为什么要做热门排行榜
视频和直播都为内容型产品。当前内容平台大部分都有内容量相对于观众量溢出的问题,如果不对内容进行一些分发,长尾内容很可能得不到见人的机会。解决的办法可能包括为不同类内容增加不同的曝光入口,人工干预长尾内容的分发或者进行个性化推荐。热门排行榜在策略上可反映为一个优质内容的曝光入口,同时也能通过人工干预影响上榜视频按照某业务目标的分布(帮目标内容增加曝光机会)。
准备期间,向朋友要了SBS测试的文档,了解了其他策略产品设计的思路和效果评价指标
大概确定了思路,整个过程为:确定系统目标——需求定性——需求定量(确定影响因子及影响方向)——确定评价指标
1. 确定系统目标
目标主要分为两类:业务目标和用户需求
业务目标在搜索上可能表现为搜索广告等商业产品或者权威性结果的提权显示,而在排行榜的设计上反映为对某类内容的”调权“,例如希望更多的热门主播内容上榜还是更多小主播的内容上榜......诸如此类,这是”我们“业务方的需求。
用户需求为用户对一个热门视频排行榜的心理预期,即:评价一个热门排行榜的标准是什么?用户希望在排行榜上看到哪些内容?,这是一个对”优秀的排行榜的客观定义“。确定用户需求的过程即是定性的过程。
2. 定性
如1所说,需要根据用户需求和业务目标对排行榜做一个定性的界定。在此需要做一个划分:对排行榜上的视频和排行榜本身。
视频的评价维度
历史热门程度:视频从放出至今的播放数据表现
时效性:视频内容是否已经过时,是否能满足时效的期望,发表时间新,但实际内容是旧闻,或者几个月或者更早发表的内容都是时效性较差的例子。
视频可看性:用户是否愿意多次观看同一视频,例如同一用户多次观看某视频或者用户对某视频进行了收藏操作。
权威性:视频源的播主是否具有权威性(名气的背书),用户更喜欢看来自于著名播客和直播主的内容。
原创性(业务):”我们“希望给原创性视频更多的上榜曝光机会。
贴合热点(业务):视频内容是否符合流行趋势,突发事件的视频内容和近期讨论热度高的话题的视频内容贴合热点的程度较高,业务上需要有对热门或突发的内容有调权机会。
排行榜的评价维度
更新速度:排行榜上视频的刷新速度,视频排行榜上内容长时间更新速度慢,用户下次观看排行榜上没有新内容,会有”疏于管理,活跃度低,无运营“的观感。
多样性:是否满足用户被动浏览场景下对内容差异性的需求,若本身内容生产上News类内容就较多,那么不做处理很有可能出现被News全部占据的现象。
最后,排行榜容易出现的马太效应问题,需要对排行榜做一个衰减的动作。
以上的维度不可能在一期中完全实现,所以我们第一期的重点是实现:历史热门程度。时效性,更新速度和多样性。其他需要配合视频CMS的改良的进度,排后处理。
3. 定量
这个过程是确定”定性“过程维度的一些指标。我们主要考虑到的包括:视频本身的长度,单视频历史播放的时长,单视频播放人数等直观的数据,据当前时间点发布的时长的衰减速度,已上榜视频的衰减速度等客观需要定义的参数(评论收藏等指标当然也很重要,但是鉴于产品本身原因,后续才会引入),还有人均观看占比这一我们人为定义的指标。
视频本身长度,播放数据的表现上,不同长度的视频差别很大,除去异常极端数据之外,可将视频按长度分组。这个分组同时也会影响到排行榜上不同长度视频的分布(多样性)。
播放时长,播放人数等指标都比较常规,不多提。
人均观看占比为我们定义的指标,等于"单视频历史播放的时长/视频自身时长/观看人数。可以理解为评价一个视频可看性的标准。其中综合了几个指标,也消除了一定的因为视频时长不同的影响。(短视频很容易看多次,而不见得是因为内容优秀)
按发布时间和上榜时间的衰减也是必须的。
具体的阈值,和单项scores标准化的过程不再匮述。
一般最后总的scores会为几个指标通过标准化之后的分数乘以不同权重(业务目标决定)的线性加权。排行榜算法最后通常会有一个衰减的过程,一般通过除以一个指数函数处理。
4. 评价指标
排行榜页面转化率
排行榜页面点击分布
以及主观的上榜内容质量,时效性等
etc
必要时可进行AB test
END
排行榜这个东西,一步步来,看数据再调整。后续内容CMS重建后,tag体系也会介入排行榜的影响因素。理想情况下运营影响排行榜主要通过tag来进行。
为方便今后的调整方便,一般需要和数据同事提前沟通下算法的结构,以防后期数据表结构出现问题。
从数据表的角度看,主要分为,按视频时长分为的组——channel(内容大类型)——tag——权重
业务需求+用户需求都非常重要,首先想清楚业务目的是什么,如何影响。
后续可能还会加入某些指标变化率这类变化更快速,来自反馈的指标。
静待调整完成。
概率论和统计学
单纯是为了刷下一本书,周末快速的把概率,期望方差,常见分布类型和适用场景,置信区间,假设检验和线性回归最小二乘法复习了一遍。
那些公式和分布适用场景再记一记吧= =希望不要很快的又忘掉(下周会不会发现高数和线代也要复习了)
下周计划
准备开搞直播打点算法,暂时思路有点闭塞,需要拿到直播后台数据再看看。
个性化推荐:直播和视频刚好是两个方向,待补充知识。
Spotify:被拉进打卡群见到了不少优秀的交互,准备好好挖一下Spotify的优秀之处。
顺便终于可以开始看数据挖掘了哈哈哈,看完之后应该可以看计算广告的后半部分了~
阮一峰老师的六大排序算法可以一看,Reddit和IMDB的“过期”案例还是很有参考价值。特别是威尔逊算法,用到置信区间,很是巧妙。
传送门:http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_wilson_score_interval.html