google历年愚人节
google历年愚人节盘点(http://m.chinabyte.com/net/57/11890557_mi.shtml)
Pigeonrank分析
google曾于早期某年愚人节发布一篇文章揭示了其PageRank Systems中所使用的技术:PigeonRank(http://archive.google.com/pigeonrank/)。PigeonRank的成功主要依赖于家鸽(Columba livia)卓越的可训练性以及它独特的识别物体的能力,而不管空间取向如何。 常见的灰鸽子可以很容易区分只显示最小差异的项目,这种能力使其能够从数千个类似的页面中选择相关的网站。
PigeonRank的具体过程是:当搜索查询提交给Google时,它将被路由到数据仓库,监视器以闪电般的速度刷新结果页面。 当一组鸽子观察到相关结果时,它会触及一个带有喙的橡皮涂层钢筋,该页面将PigeonRank值指定为1。 对于每个啄食,PigeonRank都会增加。 那些接收最多啄食的页面会返回到用户结果页面的顶部,其他结果按啄食顺序显示。PigeonRank通过啄击最佳匹配数据,对最热门的搜索结果进行排名,其中“啄击最多”的结果会被确定为最热门的搜索结果。
经过阅读我发现,PigeonRank中并未详述鸽子识别页面中的文字、图像和其他多媒体文件的方法,也没有解释鸽子决定“敲击”该网页次数的方法。并且根据我查阅到的关于鸽子的生物学资料显示,鸽子对网页内容的精确识别是几乎不可能的,更不用说判断网页重要性了。所以实际上google对鸽子排名是纯恶搞的态度。
而PigeonRank就名字而言其实是恶搞了google的搜索算法——pagerank。其基本思想是:如果一个网页被其它很多网页拿来链接引用,那么这个网页是重要性网页的可能性就很大。与此同时,如果一个网页没有被大量网页引用,但是被少数重要程度很高的网页所引用,那么此网页也被看作有很高的重要性。一个网页的重要性被均衡的传送到它所引用的页面上去。
从以上公式我们可以看出,基于pagerank算法的每个网页的重要性(PR值)可以从其它网页的 PR 值计算得到。搜索引擎可以重复不断地计算每个网页的 PR 值。如果开始给与的每个网页 PR 值是非零的,这样不断计算下去就可以得到一个稳定正常收敛的 Pagerank 值,这点正是搜索引擎公司使用它的原因。
当然,Google实际使用的Pagerank系统比上述的复杂的多。我们只能从其外部特征看出,google现有的PageRank不单考虑一个网站的外部链接质量,也会考虑其数量。并且,不仅根据链出url将受欢迎程度植入了搜索引擎,谷歌工程师还利用了成千上万使用谷歌搜索的用户产生的数据。包括他们点击哪些结果、不满意时对关键词的更改、查询关键词与所处地理位置的关系等。这一过程的最直接例子就是谷歌所说的“个性化搜索”——这是一个可选功能,利用用户的搜索历史和地理位置来确定他想要找的内容(使用这项功能需要先登录谷歌账号)。