百度和谷歌的搜索和排序算法分析

简书里基本我所有的文章都是给自己看的,所以文章会有侧重地写肯定不全,不是写给大家看的。



没有看搜索引擎的自然语言处理,pagerank算法,相关度算法,相似度辨别算法,等有时间好好看吧。

仅从测试角度体验了下,分析可能有问题。结果如下:

百度:

总体上:利用自然语言处理的分词+定义相关关键词字典+词频统计+添加bad case

百度是从首页抓起,权重从首页到内页依次降低。

单个网页,搜索先从标题开始遍历,再从内容分析。所以mata,h1,h2要维护好

排名算法:测试发现百度根据的网站内容更新频率,其他因素还没有发现。然后再结合标题和内容出现的相关关键词越多,且该网页点击率越高,则排名越高。

比如我的这篇原创《从社交动机,行为方式,关系链看社交产品》,发现排名最前面的不是我在简书上发的,而是一个营销网站“鸟哥笔记”。。。。。

因为中国大部分草根网民都是用的百度,知识深度不够,所以百度的办法是搜索时不需要考虑相关关键词,百度已经替你考虑好,搜索结果包含相关关键词的数据。但是这样的解决方案,会导致重复内容很多,搜索效率很低。这个百度应该着重考虑的。


谷歌:

利用与英文单次类似的词组分析法+pagerank+内容相关性+网站的PR值+外链

不是从标题开始遍历的,而是从内容分析相关性,具体相关性算法不清楚,可以肯定的是也会利用词频+上下文。

排名算法:网站外链+网站地图等

因为用谷歌的用户基本都是需要翻墙找英文数据,而这些用户基本知识深度相对高,所以搜索时最好用专业术语,学术术语等。

搜索时需要人为添加相关关键词,而且关键词之间相关性要强,如果自己添加的关键词比较偏,搜索结果质量就会很差,但是好处是内容重复性低。


分析最到位的是以下两篇:

一、《谷歌背后的数字》 

二、论坛的文章 :Google 做分词的话就是把问题看成一个概率问题:如果中文网页中哪些字经常一起出现,那麽它们很有可能就是一个词。看哪些词后面会跟的地得,的地得后面有常跟哪些词,语法结构也就出来了。(具体的模型参见吴军《数学之美》)。解题思路就是把所有抓到的中文网页往 MapReduce 裡一丢,参数算出来就好了。评估分词质量的方法也很简单,就拿新模型放到网页检索的模型裡,做个实验看质量有没提升就行。这套方法结果之好,基本把中文分词做成了一个没有多少悬念的简单问题,而且基本不需要中文语言专家的参与(自然也没有谁更懂中文的问题)。同时这也就是 Google 做 Translate 的思路。这裡面基本方法其实非常简单,没什麽祕密可言,但是你得先有这麽多的网页数据,还得有大机群,有分佈计算框架,还有可复用的模型……



等搜索原理看的差不多了,再更新把~~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,719评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,337评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,887评论 0 324
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,488评论 1 266
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,313评论 4 357
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,284评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,672评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,346评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,644评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,700评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,457评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,316评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,706评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,261评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,648评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,859评论 2 335

推荐阅读更多精彩内容

  • 转载请注明:终小南 » 中文分词算法总结 什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而...
    kirai阅读 9,785评论 3 24
  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,121评论 1 25
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,117评论 25 707
  • 辛勤劳动才是最有意义的事情 毫无疑问,全身沾满汗水和泥土、坚持劳作的“田间精进”已经潜移默化,扎根于内心,陶冶了人...
    阳光营造阅读 473评论 0 0
  • ———给自己的总结 又是一个月,时间的确是不会停下来等你的,感觉如水般滑过我的手指,轻柔又毫不犹豫的从我的指缝中流...
    一路向南007阅读 259评论 2 0