帖子排序算法

本文为学习阮一峰《基于用户投票的排名算法》的学习笔记。

一、Hacker News(只有赞成票)

Hacker News排序数学公式

① P 表示帖子的得票数,减去 1 是为了忽略发帖人的投票。
② T 表示距离发帖的时间(单位为小时),加上 2 是为了防止最新的帖子导致分母过小。
③ G 表示"重力因子"(gravityth power),即将帖子排名往下拉的力量,默认值为1.8。


得分趋势表

从上图可以看到,有三个同时发表的帖子,得票分别为 200 票、60票和 30 票(减 1 后为 199、59和 29),分别以黄色、紫色和蓝色表示。在任一个时间点上,都是黄色曲线在最上方,蓝色曲线在最下方。


调整重力因子后的得分趋势表

从上图可以看到,三根曲线的其他参数都一样,G的值分别为1.5、1.8和2.0。G值越大,曲线越陡峭,排名下降得越快,意味着排行榜的更新速度越快。

二、Reddit(赞成票与反对票)

Reddit排序数学公式

① 帖子的新旧程度t = 发贴时间 - 建站时间
② 赞成票与反对票的差x = 赞成票 - 反对票

③ 投票方向y

④ 帖子的受肯定程度z

(一)

这表示,赞成票超过反对票的数量越多,得分越高。 前 10 个投票人与后 90 个投票人(乃至再后面 900 个投票人)的权重是一样。
(二)

这个表示,t越大,得分越高。
分母的 45000 秒,等于 12.5 个小时,如果前一天的帖子在第二天还想保持原先的排名,在这一天里面,它得到的净赞成票必须增加 100 倍。y 的作用是用来产生正分和负分。
(三)对于那些有争议的文章(赞成票和反对票非常接近),它们不可能排到前列。

三、Stack Overflow(对问题投赞成或反对,对回复投赞成或反对)

Stack Overflow排序数学公式

① Qviews(问题的浏览次数)

这里使用了以 10 为底的对数,用意是当访问量越来越大,它对得分的影响将不断变小。

② Qscore(问题得分)和 Qanswers(回答的数量)

Qscore(问题得分)= 赞成票-反对票。如果某个问题越受到好评,排名自然应该越靠前。Qanswers 表示回答的数量,代表有多少人参与这个问题。这个值越大,得分将成倍放大。
③ Ascores(回答得分)

"回答"比"问题"更有意义。这一项的得分越高,就代表回答的质量越高。

④ Qage(距离问题发表的时间)和 Qupdated(距离最后一个回答的时间)

随着时间流逝,这两个值都会越变越大,导致分母增大,因此总得分会越来越小。
⑤ Stack Overflow 热点问题的排名,与参与度(Qviews 和 Qanswers)和质量(Qscore 和 Ascores)成正比,与时间(Qage 和 Qupdated)成反比。

四、牛顿冷却定律

牛顿冷却定律 数学公式

假定室温H为 0 度,即所有物体最终都会"冷寂",方程就可以简化为
简化后的牛顿冷却定律

本期温度 = 上一期温度 x exp (-(冷却系数) x 间隔的小时数)
将这个公式用在"排名算法",就相当于(假定本期没有增加净赞成票)
本期得分 = 上一期得分 x exp (-(冷却系数) x 间隔的小时数)
如果假定一篇新文章的初始分数是 100 分,24小时之后"冷却"为 1 分,那么可以计算得到"冷却系数"约等于0.192。如果你想放慢"热文排名"的更新率,"冷却系数"就取一个较小的值,否则就取一个较大的值。

五、威尔逊区间(不考虑时间因素)

① 错误一
得分 = 赞成票 - 反对票
假定有两个项目,项目A是 60 张赞成票,40张反对票,项目B是 550 张赞成票,450张反对票。请问,谁应该排在前面?按照上面的公式,B会排在前面,因为它的得分(550 - 450 = 100)高于A(60 - 40 = 20)。但是实际上,B的好评率只有 55%(550 / 1000),而A为 60%(60 / 100),所以正确的结果应该是A排在前面。
② 错误二
得分 = 赞成票 / 总票数
 如果"总票数"很大,这种算法其实是对的。问题出在如果"总票数"很少,这时就会出错。假定A有 2 张赞成票、0张反对票,B有 100 张赞成票、1张反对票。这种算法会使得A排在B前面。这显然错误。

那么,正确的算法是什么呢?
我们先做如下设定:

(1)每个用户的投票都是独立事件。
(2)用户只有两个选择,要么投赞成票,要么投反对票。
(3)如果投票总人数为n,其中赞成票为k,那么赞成票的比例p就等于k/n。

如果你熟悉统计学,可能已经看出来了,p服从一种统计分布,叫做"两项分布"。
p越大,就代表这个项目的好评比例越高,越应该排在前面。但是,p的可信性,取决于有多少人投票,如果样本太小,p就不可信。
p服从"两项分布",因此我们可以计算出p的置信区间。所谓"置信区间",就是说,以某个概率而言,p会落在的那个区间。比如,某个产品的好评率是 80%,但是这个值不一定可信。根据统计学,我们只能说,有 95% 的把握可以断定,好评率在 75% 到 85% 之间,即置信区间是[75%, 85%]。
排名算法:

第一步,计算每个项目的"好评率"(即赞成票的比例)。
第二步,计算每个"好评率"的置信区间(以 95% 的概率)。
第三步,根据置信区间的下限值,进行排名。这个值越大,排名就越高。

这样做的原理是,置信区间的宽窄与样本的数量有关。比如,A有 8 张赞成票,2张反对票;B有 80 张赞成票,20张反对票。这两个项目的赞成票比例都是 80%,但是B的置信区间(假定[75%, 85%])会比A(假定[70%, 90%])窄得多,因此B的置信区间的下限值(75%)会比A(70%)大,所以B应该排在A前面。
下限值计算公式:


下限值

在上面的公式中,

表示样本的"赞成票比例",
表示样本的大小,
表示对应某个置信水平的z统计量,这是一个常数,可以通过查表或统计软件包得到。一般情况下,在 95% 的置信水平下,z统计量的值为1.96。

六、贝叶斯平均

解决:排行榜前列总是那些票数最多的项目,新项目或者冷门的项目,很难有出头机会,排名可能会长期靠后。
举例来说,一部好莱坞大片有 10000 个观众投票,一部小成本的文艺片只有 100 个观众投票。这两者的投票结果,怎么比较?如果使用"威尔逊区间",后者的得分将被大幅拉低,这样处理是否公平,能不能反映它们真正的质量?


解决公式

WR, 加权得分(weighted rating)。
R,该电影的用户投票的平均得分(Rating)。
v,该电影的投票人数(votes)。
m,排名前 250 名的电影的最低投票数(现在为 3000)。
C, 所有电影的平均得分(现在为6.9)。
假设所有电影都至少有 3000 张选票,那么就都具备了进入前 250 名的评选条件;然后假设这 3000 张选票的评分是所有电影的平均得分(即假设这部电影具有平均水准);最后,用现有的观众投票进行修正,长期来看,v/(v+m)这部分的权重将越来越大,得分将慢慢接近真实情况。
把这个公式写成更一般的形式:


一般形式

C,投票人数扩展的规模,是一个自行设定的常数,与整个网站的总体用户人数有关,可以等于每个项目的平均投票数。
n,该项目的现有投票人数。
x,该项目的每张选票的值。

m,总体平均分,即整个网站所有选票的算术平均值。

"贝叶斯平均"也有缺点,主要问题是它假设用户的投票是正态分布。比如,电影A有 10 个观众评分,5个为五星,5个为一星;电影B也有 10 个观众评分,都给了三星。这两部电影的平均得分(无论是算术平均,还是贝叶斯平均)都是三星,但是电影A可能比电影B更值得看。
  解决这个问题的思路是,假定每个用户的投票都是独立事件,每次投票只有n个选项可以选择,那么这就服从"多项分布",就可以结合贝叶斯定理,计算该分布的期望值。

更多详细的解释请到原文地址查看:
https://kb.cnblogs.com/page/135656/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,126评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,254评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,445评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,185评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,178评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,970评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,276评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,927评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,400评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,883评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,997评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,646评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,213评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,204评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,423评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,423评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,722评论 2 345

推荐阅读更多精彩内容

  • 迄今为止,这个系列都在讨论,如何给出"某个时段"的排名,比如"过去24小时最热门的文章 但是,很多场合需要的是"所...
    每有睡意便欣然忘食阅读 3,629评论 0 0
  • 川流不息霓虹灯闪烁,窗外的夜依旧繁华如昼。 我关了灯,蜷缩在无尽黑暗。 我没有拉上窗帘。窗子很大,窗外的颜色好多好...
    万妍阅读 234评论 1 1
  • 文/沈墨凉 “妈,我想去整容”。 我妈听了我这话,吓得不行。 “闺女儿,虽然我和你爸给你的基因不好,没有让你长的倾...
    沈墨凉阅读 835评论 6 5
  • 如果你现在有一下午的空余时间,你会拿来做些什么呢? 读书、游玩还是睡觉、打游戏呢? 今天我想和你分享的是一段木作时...
    绿草浮生阅读 830评论 0 0
  • 任正非新华社面对面:烧不死的鸟是凤凰,把自己变得更加真实,沙滩上房子迟早会坍塌。 扎根基础研究:沙滩上的房子迟早会...
    闻方培训师阅读 925评论 0 0