帖子排序算法

一、Hacker News（只有赞成票）

Hacker News排序数学公式

① P 表示帖子的得票数，减去 1 是为了忽略发帖人的投票。
② T 表示距离发帖的时间（单位为小时），加上 2 是为了防止最新的帖子导致分母过小。
③ G 表示"重力因子"（gravityth power），即将帖子排名往下拉的力量，默认值为1.8。

得分趋势表

从上图可以看到，有三个同时发表的帖子，得票分别为 200 票、60票和 30 票（减 1 后为 199、59和 29），分别以黄色、紫色和蓝色表示。在任一个时间点上，都是黄色曲线在最上方，蓝色曲线在最下方。

调整重力因子后的得分趋势表

从上图可以看到，三根曲线的其他参数都一样，G的值分别为1.5、1.8和2.0。G值越大，曲线越陡峭，排名下降得越快，意味着排行榜的更新速度越快。

二、Reddit（赞成票与反对票）

Reddit排序数学公式

① 帖子的新旧程度t = 发贴时间 - 建站时间
② 赞成票与反对票的差x = 赞成票 - 反对票

③ 投票方向y

④ 帖子的受肯定程度z

（一）

这表示，赞成票超过反对票的数量越多，得分越高。前 10 个投票人与后 90 个投票人（乃至再后面 900 个投票人）的权重是一样。
（二）

这个表示，t越大，得分越高。
分母的 45000 秒，等于 12.5 个小时，如果前一天的帖子在第二天还想保持原先的排名，在这一天里面，它得到的净赞成票必须增加 100 倍。y 的作用是用来产生正分和负分。
（三）对于那些有争议的文章（赞成票和反对票非常接近），它们不可能排到前列。

三、Stack Overflow（对问题投赞成或反对，对回复投赞成或反对）

Stack Overflow排序数学公式

① Qviews（问题的浏览次数）

这里使用了以 10 为底的对数，用意是当访问量越来越大，它对得分的影响将不断变小。

② Qscore（问题得分）和 Qanswers（回答的数量）

Qscore（问题得分）= 赞成票-反对票。如果某个问题越受到好评，排名自然应该越靠前。Qanswers 表示回答的数量，代表有多少人参与这个问题。这个值越大，得分将成倍放大。
③ Ascores（回答得分）

"回答"比"问题"更有意义。这一项的得分越高，就代表回答的质量越高。

④ Qage（距离问题发表的时间）和 Qupdated（距离最后一个回答的时间）

随着时间流逝，这两个值都会越变越大，导致分母增大，因此总得分会越来越小。
⑤ Stack Overflow 热点问题的排名，与参与度（Qviews 和 Qanswers）和质量（Qscore 和 Ascores）成正比，与时间（Qage 和 Qupdated）成反比。

四、牛顿冷却定律

牛顿冷却定律数学公式

假定室温H为 0 度，即所有物体最终都会"冷寂"，方程就可以简化为

简化后的牛顿冷却定律

本期温度 = 上一期温度 x exp (-(冷却系数) x 间隔的小时数)
将这个公式用在"排名算法"，就相当于（假定本期没有增加净赞成票）
本期得分 = 上一期得分 x exp (-(冷却系数) x 间隔的小时数)
如果假定一篇新文章的初始分数是 100 分，24小时之后"冷却"为 1 分，那么可以计算得到"冷却系数"约等于0.192。如果你想放慢"热文排名"的更新率，"冷却系数"就取一个较小的值，否则就取一个较大的值。

五、威尔逊区间（不考虑时间因素）

① 错误一
得分 = 赞成票 - 反对票
假定有两个项目，项目A是 60 张赞成票，40张反对票，项目B是 550 张赞成票，450张反对票。请问，谁应该排在前面？按照上面的公式，B会排在前面，因为它的得分（550 - 450 = 100）高于A（60 - 40 = 20）。但是实际上，B的好评率只有 55%（550 / 1000），而A为 60%（60 / 100），所以正确的结果应该是A排在前面。
② 错误二
得分 = 赞成票 / 总票数
　如果"总票数"很大，这种算法其实是对的。问题出在如果"总票数"很少，这时就会出错。假定A有 2 张赞成票、0张反对票，B有 100 张赞成票、1张反对票。这种算法会使得A排在B前面。这显然错误。

那么，正确的算法是什么呢？
我们先做如下设定：

（1）每个用户的投票都是独立事件。
（2）用户只有两个选择，要么投赞成票，要么投反对票。
（3）如果投票总人数为n，其中赞成票为k，那么赞成票的比例p就等于k/n。

如果你熟悉统计学，可能已经看出来了，p服从一种统计分布，叫做"两项分布"。
p越大，就代表这个项目的好评比例越高，越应该排在前面。但是，p的可信性，取决于有多少人投票，如果样本太小，p就不可信。
p服从"两项分布"，因此我们可以计算出p的置信区间。所谓"置信区间"，就是说，以某个概率而言，p会落在的那个区间。比如，某个产品的好评率是 80%，但是这个值不一定可信。根据统计学，我们只能说，有 95% 的把握可以断定，好评率在 75% 到 85% 之间，即置信区间是[75%， 85%]。
排名算法：

第一步，计算每个项目的"好评率"（即赞成票的比例）。
第二步，计算每个"好评率"的置信区间（以 95% 的概率）。
第三步，根据置信区间的下限值，进行排名。这个值越大，排名就越高。

这样做的原理是，置信区间的宽窄与样本的数量有关。比如，A有 8 张赞成票，2张反对票；B有 80 张赞成票，20张反对票。这两个项目的赞成票比例都是 80%，但是B的置信区间（假定[75%， 85%]）会比A（假定[70%， 90%]）窄得多，因此B的置信区间的下限值（75%）会比A（70%）大，所以B应该排在A前面。
下限值计算公式：

下限值

在上面的公式中，

表示样本的"赞成票比例"，

表示样本的大小，

表示对应某个置信水平的z统计量，这是一个常数，可以通过查表或统计软件包得到。一般情况下，在 95% 的置信水平下，z统计量的值为1.96。

六、贝叶斯平均

解决：排行榜前列总是那些票数最多的项目，新项目或者冷门的项目，很难有出头机会，排名可能会长期靠后。
举例来说，一部好莱坞大片有 10000 个观众投票，一部小成本的文艺片只有 100 个观众投票。这两者的投票结果，怎么比较？如果使用"威尔逊区间"，后者的得分将被大幅拉低，这样处理是否公平，能不能反映它们真正的质量？

解决公式

WR，加权得分（weighted rating）。
R，该电影的用户投票的平均得分（Rating）。
v，该电影的投票人数（votes）。
m，排名前 250 名的电影的最低投票数（现在为 3000）。
C，所有电影的平均得分（现在为6.9）。
假设所有电影都至少有 3000 张选票，那么就都具备了进入前 250 名的评选条件；然后假设这 3000 张选票的评分是所有电影的平均得分（即假设这部电影具有平均水准）；最后，用现有的观众投票进行修正，长期来看，v/(v+m)这部分的权重将越来越大，得分将慢慢接近真实情况。
把这个公式写成更一般的形式：

一般形式

C，投票人数扩展的规模，是一个自行设定的常数，与整个网站的总体用户人数有关，可以等于每个项目的平均投票数。
n，该项目的现有投票人数。
x，该项目的每张选票的值。

m，总体平均分，即整个网站所有选票的算术平均值。

"贝叶斯平均"也有缺点，主要问题是它假设用户的投票是正态分布。比如，电影A有 10 个观众评分，5个为五星，5个为一星；电影B也有 10 个观众评分，都给了三星。这两部电影的平均得分（无论是算术平均，还是贝叶斯平均）都是三星，但是电影A可能比电影B更值得看。
　　解决这个问题的思路是，假定每个用户的投票都是独立事件，每次投票只有n个选项可以选择，那么这就服从"多项分布"，就可以结合贝叶斯定理，计算该分布的期望值。

更多详细的解释请到原文地址查看：
https://kb.cnblogs.com/page/135656/

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,126评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,254评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,445评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,185评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,178评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,970评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,276评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,927评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,400评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,883评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,997评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,646评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,213评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,204评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,423评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,423评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,722评论 2赞 345