点赞动力学-1

  0

  我一直在想,人们是如何会为一篇文章点赞的。

  这样的模型可以有很多种,而且根据不同的心理动因,基本上可以给出看上去毫不相关的好多不同的种类。

  那么,有没有什么是上述这些东西所共有的呢?

  或者说,抛开具体的心理动因等具象化因素之后,有没有什么抽象的唯像的范式是可以被保留下来的呢?

  更重要的是,这样的范式是否可能回答这样的问题:

  如果有人写了一篇新文章,我如何利用已有的点赞数据,来判断什么样的用户会为它点赞,而什么样的用户不会?

  嗯,基本上就是因为这类问题,我开始胡诌这篇《点赞动力学》。

  我们可以畅想,如果掌握了这样的技术的话,那么一个UGC平台就可以更好地为也难用户推荐他们可能喜欢的文章,而不需要过多的编辑了。


  1

  点赞的最抽象过程,大概可以这么来描述:

1,所有文章可能的属性构成的集合为T,T中的元素记为T_i,代表了一个可能的属性;

2,一篇文章P具有一个“倾向分布”,记为Q(P,T_i),其取值范围为[0,1];

3,一名读者U具有一个“喜好分布”,记为P(U,T_i),其取值范围为[0,1];

4,对于一篇指定的文章P和指定的用户U,如果存在某个属性t使Q(P,t)>P(U,t)成立,则该用户U会为文章P点赞。

  翻译成人话就是:如果一篇文章在某个方面吸引了用户,那用户就会为这篇文章点赞

  这么浅显易懂的道理我居然写了这么多废话,可见唠嗑的本领果然不是盖的。

  当然,实际上上面所说的那些分布都是不可知的——甚至于,作者也不知道自己写的文章到底能分到哪些属性,每个属性的Q值又是多少,而读者也不真的知道自己对哪些属性是感兴趣的,这些属性的P值又是多少。

  所以,事实上对一个视图回答一开始所提出的问题的平台来说,它所要作的其实是根据每个用户的点赞情况,来反过来逆推上述两类分布P和Q,以及属性集T。

  这是问题的第一步。

  当我们将T、P和Q都获取后,面对一篇新出现的文章,如何通过少数几个用户的点赞来确定它的Q',并根据这个Q'来推荐给合适的用户群{U}就是第二步的问题了。


  2

  让我们思考这么一个问题:

  如果我们已经每篇文章有哪些用户点赞,以及每个用户对哪些文章点赞,然后我们有了一篇问的文章X,并且已经有一定的用户对其点赞了,我们如何判断这篇文章对那些还没点赞的用户来说,到底是否值得推荐?

  有两类方法可以解决这个问题。

  一类,我们考虑一个简单的情况,就是只有A和B两个人,总共N篇文章,其中A点赞了P_a篇文章,B点赞了P_b篇文章,其中P_ab篇文章是A和B一起点赞的,那么如果一篇新的文章出现,并且B没有看过,而A已经点赞的话,B看后会点赞的概率就会是P_ab/P_a,而如果A也没有点赞,那么B会点在的概率就是(P_b-P_ab)/(N-Pa)。

  基于类似的思路,我们可以通过点赞文章的分布来计算出上面所问的那个问题:一伙人点赞后,另一个人点赞的概率等于P_{所有点赞了的用户+指定用户X}/P_{所有点赞了的用户},其中P_{abc...}表示用户a、b、c等等都点赞了的文章的数量。

  这个思路的最大问题在于,随着用户人数的增加,文章数的增加,这个计算量是指数级爆发的。我们大概只能在一定共同圈上做截断,比如只计算到三个人共同点赞的文章——这样所需的计算量已经是用户人数的立方了,很不可取。

  而如果计算的共同点赞用户数比较少,那结果就会很不精确。

  我们自然可以用各种方法来降低计算量,但所有这些方法都会引入额外的误差,结果就没有保障了。

  因此,另一个思路就变得很可行了,那就是分析一篇文章和一个用户的兴趣爱好分布,也就是上一小节中所说的P和Q的分布情况,将用户和文章分类,再分析新文章的分类,以分类为基础做推荐。

  这样的思路的最大问题就是,如上所说的分布的分析很麻烦,但好处是,计算量将不会几何级爆炸。

  所以,这就是本文最大的兴趣所在了。


  3

  我们可以认为,每篇文章都隶属于几个特定的类。

  一个最自然的类,就是上文中所提到的“属性”了——属性自然就是一种类。

  但,当我们是通过用户和文章之间的由点赞而建立起来的分布时,我们并不天然地知道属性是什么,所以只能认为地寻找一些合适的分类,使得在这种分类下,通过上述由属性到分布的过程可以得到一个和已知分布接近的分布。

  为此,我们先要给类下一个明确的定义——

  如果一篇文章属于类X,而一个用户也属于类X,则该用户有超过一定概率P的可能为该文章点赞。

  接下来,我们就需要研究各种不同情况下的点赞分布规律。

  无论是由属性决定的还是由类决定的分布,一篇文章p被用户u点赞的概率平均下来都可以被写为:

  P(u,p)=1-(1-N_u/T*N_p/T*Q)^T

  其中T是属性/类总数;N_u是用户所有的属性/类数,N_p是文章所有的属性/类数,Q是在指定分布模式下在特定属性/类中用户的喜好分布值大于文章的倾向属性值的平均概率——对于开头所用的随机分布来说,就是0.5,对于类来说,就是那个P。

  这四个未知数中,前三个都是彻底未知的,而最后的Q则原则上既可以是系统设定值,也可以是一个未知项,比较灵活。

  下面来看文章被点赞数的分布,以及用户点赞数的分布,它们将呈现出不一样的分布状态,从而提供更多的信息。

  以文章p为例,对一篇确定的文章来说,它被特定用户u点击的概率为:

  P(p,N_u)=1-(1-N_u/T*Q)^N_p

  其实这个等式就表示全概率1减去特定用户u不会点击该文章p的概率。

  因此,这篇文章会被n个人点赞的分布就是:

  P(p,n;N_u)=C(n,N_U)*P(p,N_u)^n*(1-P(p,N_u))^(N_U-n)

  当然,这个结论是存在问题的,那就是这里我们假定每个用户的P分布都是随机的且相互独立的,而且具有相同的N_u。在现实中,这些条件都无法被满足,只能通过一定的方法做估算,比如可以认为是在某个特定N_u两侧做一定的分布,从而就有:

  D(N_x)=C(N_x,T)*(N_u/T)^N_x*(1-N_u/T)^(T-N_x)

  从而一篇特定文章被点赞的数分布就是:

  Pro(P,n)=Sum(N_x=0~T)[D(N_x)*P(p,n;N_x)]

  对于特定用户的点赞文章数分布也有类似的结果。

  因此,我们可以通过分析数据库中的点赞情况,分析出T、N_u和N_p,在差一个待定因子Q的情况下——而如果我们建立以类为划分基础的模型的话,那Q就是一个已知的系统因子。

  这样,我们原则上就可以通过数据分析来确定一些最大值的系统:T、N_u和N_p

  这里T是类数,N_u是用户感兴趣类的平均数,而N_p是文章所述类的平均数。

  接下来,就是最有趣的部分了:通过如上参数来逆向推测出每个类都有哪些文章和用户。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容

  • 一年级语文上册生字表 生字表一(共400字) 啊(ā)爱(ài)安(ān)岸(àn)爸(bà)八(bā)巴(bā)...
    meychang阅读 2,742评论 0 6
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,062评论 25 707
  • 已完成 1.早起跑步 2.蜂蜜水 3.阅读半小时 4.软笔书法两张 5.硬笔书法两张 6.作业批改 未完成 1.备...
    情不知所起M阅读 299评论 0 0
  • 我还是喜欢你 像风走了八千里 不问归期
    琳子君阅读 117评论 0 0
  • 今天看了知乎上的一个提问:有哪些你曾经认为不可战胜的困难,最终被你战胜了?,感触良多。在这世上,每个人都处于自己的...
    hmaccelerate阅读 184评论 0 4