20170226周总结

正式回视频组的第一周,主要在弄视频热门排行榜算法的东西,顺带为即将到来的直播打点算法做一些准备。

去了一趟珠海,和数据中心的同事沟通还算顺利,不过为了今后的策略工作不会太吃力,周末把概率论和统计学又复习了一遍,下周开始新书。


关于热门视频排行榜

为什么要做热门排行榜

视频和直播都为内容型产品。当前内容平台大部分都有内容量相对于观众量溢出的问题,如果不对内容进行一些分发,长尾内容很可能得不到见人的机会。解决的办法可能包括为不同类内容增加不同的曝光入口,人工干预长尾内容的分发或者进行个性化推荐。热门排行榜在策略上可反映为一个优质内容的曝光入口,同时也能通过人工干预影响上榜视频按照某业务目标的分布(帮目标内容增加曝光机会)。

准备期间,向朋友要了SBS测试的文档,了解了其他策略产品设计的思路和效果评价指标

大概确定了思路,整个过程为:确定系统目标——需求定性——需求定量(确定影响因子及影响方向)——确定评价指标


1. 确定系统目标

目标主要分为两类:业务目标和用户需求

业务目标在搜索上可能表现为搜索广告等商业产品或者权威性结果的提权显示,而在排行榜的设计上反映为对某类内容的”调权“,例如希望更多的热门主播内容上榜还是更多小主播的内容上榜......诸如此类,这是”我们“业务方的需求。

用户需求为用户对一个热门视频排行榜的心理预期,即:评价一个热门排行榜的标准是什么?用户希望在排行榜上看到哪些内容?,这是一个对”优秀的排行榜的客观定义“。确定用户需求的过程即是定性的过程。

2. 定性

如1所说,需要根据用户需求和业务目标对排行榜做一个定性的界定。在此需要做一个划分:对排行榜上的视频和排行榜本身。

视频的评价维度

历史热门程度:视频从放出至今的播放数据表现

时效性:视频内容是否已经过时,是否能满足时效的期望,发表时间新,但实际内容是旧闻,或者几个月或者更早发表的内容都是时效性较差的例子。

视频可看性:用户是否愿意多次观看同一视频,例如同一用户多次观看某视频或者用户对某视频进行了收藏操作。

权威性:视频源的播主是否具有权威性(名气的背书),用户更喜欢看来自于著名播客和直播主的内容。

原创性(业务):”我们“希望给原创性视频更多的上榜曝光机会。

贴合热点(业务):视频内容是否符合流行趋势,突发事件的视频内容和近期讨论热度高的话题的视频内容贴合热点的程度较高,业务上需要有对热门或突发的内容有调权机会。


排行榜的评价维度

更新速度:排行榜上视频的刷新速度,视频排行榜上内容长时间更新速度慢,用户下次观看排行榜上没有新内容,会有”疏于管理,活跃度低,无运营“的观感。

多样性:是否满足用户被动浏览场景下对内容差异性的需求,若本身内容生产上News类内容就较多,那么不做处理很有可能出现被News全部占据的现象。

最后,排行榜容易出现的马太效应问题,需要对排行榜做一个衰减的动作。

以上的维度不可能在一期中完全实现,所以我们第一期的重点是实现:历史热门程度。时效性,更新速度和多样性。其他需要配合视频CMS的改良的进度,排后处理。

3. 定量

这个过程是确定”定性“过程维度的一些指标。我们主要考虑到的包括:视频本身的长度,单视频历史播放的时长,单视频播放人数等直观的数据,据当前时间点发布的时长的衰减速度,已上榜视频的衰减速度等客观需要定义的参数(评论收藏等指标当然也很重要,但是鉴于产品本身原因,后续才会引入),还有人均观看占比这一我们人为定义的指标。

视频本身长度,播放数据的表现上,不同长度的视频差别很大,除去异常极端数据之外,可将视频按长度分组。这个分组同时也会影响到排行榜上不同长度视频的分布(多样性)。

播放时长,播放人数等指标都比较常规,不多提。

人均观看占比为我们定义的指标,等于"单视频历史播放的时长/视频自身时长/观看人数。可以理解为评价一个视频可看性的标准。其中综合了几个指标,也消除了一定的因为视频时长不同的影响。(短视频很容易看多次,而不见得是因为内容优秀)

按发布时间和上榜时间的衰减也是必须的。

具体的阈值,和单项scores标准化的过程不再匮述。

一般最后总的scores会为几个指标通过标准化之后的分数乘以不同权重(业务目标决定)的线性加权。排行榜算法最后通常会有一个衰减的过程,一般通过除以一个指数函数处理。

4. 评价指标

排行榜页面转化率

排行榜页面点击分布

以及主观的上榜内容质量,时效性等

etc

必要时可进行AB test

END

排行榜这个东西,一步步来,看数据再调整。后续内容CMS重建后,tag体系也会介入排行榜的影响因素。理想情况下运营影响排行榜主要通过tag来进行。

为方便今后的调整方便,一般需要和数据同事提前沟通下算法的结构,以防后期数据表结构出现问题。

从数据表的角度看,主要分为,按视频时长分为的组——channel(内容大类型)——tag——权重

业务需求+用户需求都非常重要,首先想清楚业务目的是什么,如何影响。

后续可能还会加入某些指标变化率这类变化更快速,来自反馈的指标。

静待调整完成。


概率论和统计学

单纯是为了刷下一本书,周末快速的把概率,期望方差,常见分布类型和适用场景,置信区间,假设检验和线性回归最小二乘法复习了一遍。

那些公式和分布适用场景再记一记吧= =希望不要很快的又忘掉(下周会不会发现高数和线代也要复习了)


下周计划

准备开搞直播打点算法,暂时思路有点闭塞,需要拿到直播后台数据再看看。

个性化推荐:直播和视频刚好是两个方向,待补充知识。

Spotify:被拉进打卡群见到了不少优秀的交互,准备好好挖一下Spotify的优秀之处。

顺便终于可以开始看数据挖掘了哈哈哈,看完之后应该可以看计算广告的后半部分了~


阮一峰老师的六大排序算法可以一看,Reddit和IMDB的“过期”案例还是很有参考价值。特别是威尔逊算法,用到置信区间,很是巧妙。

传送门:http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_wilson_score_interval.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容