SEO探秘:当你在百度搜索时,那些结果是怎么出来的,背后的原理有是什么?

在我看来,SEO不仅是一门技术,如果用得好,更是能通过搜索引擎(国内当然是百度)这样大的流量平台,为自己的网站引来很多流量。可能将来的你不会直接应用SEO技术为公司引流,但无论你的职业规划是运营总监还是市场总监,这部分内容必定需要有一定了解,最好是能懂其中的原理和关键点。

以下是我最近在阅读的Zac的《SEO实战密码:60天网站流量提高20倍》。基于与大家分享一起分享的想法,将自己的读书笔记整理出来,觉得核心的关键点梳理了一下。希望能对大家有所帮助。(如果你看完后觉得有帮助,可以文末点赞评论打赏。这样我有更多动力进行整本书的读书笔记分享哦~)

先上思维导图:

下面进入正题。

《SEO实战笔记》这本书一开始讲述了搜索引擎的发展历史,其中重点描述了各大搜索引擎公司的起起落落史。像我们比较熟知的Google退出中国市场都已经是比较后期的事情了。另外还讲述了搜索引擎与目录的区别等等(感兴趣的可以点击下面的思维导图上半部分)。因为与今天分享的主题不相关,而且也不能直接应用在工作中,所以这里我就不赘述,直接进入以下两个部分:

搜索引擎的显示格式:以百度页面为例

页面主题有两部分最主要,一是广告,二是自然搜索结果。

一、非自然搜索结果(广告部分):

页面顶部有2个广告、底部有3个广告。作者撰写本书时,百度的右侧栏是8个广告。现在右侧“其它人还在搜”的推荐,以及“搜索热点”的推荐。目前的广告是触发了百度的凤巢系统,有稍微灰黄色的底作为区分(虽然不明显)。还有的搜索不会触发凤巢系统,还是以前的老广告推送。这种顶部广告则是没有区分,只在搜索结果的第四行标注了小小的“广告”二字。如下图

搜索广告在网络营销行业常被称为PPC,它属于搜索营销的另一个内容。

二、自然搜索结果部分(每页10条)

现在我们撇开广告,仔细看看每条自然搜索结果都有哪些部分组成。

标题:通常取自页面HTML代码中的标题标签。我们经常是根据标题内容决定s是否点击的,可见标题标签的写法,无论对排名还是对点击率都有很重要的意义。

页面说明:以上图为例,第二行、第三行、第四行都是页面说明。它有时候取自页面HTML中的说明标签,有的时候从页面可见文字中动态抓取相关内容。

网址、目录、文件名、百度快照等。最后一行显示网址,用户可以看到页面来自哪个网站、以及目录、文件名信息。

作者以前查询的时候,还可以显示该页面在百度数据库最后更新的日期。

然后是百度快照链接,用户可以点击快照,查看存储在百度数据库中的页面内容。也就是说页面被删除或者不能打开时,用户可以从快照中查看想要的内容。

另外大家应该页发现了,用户所搜索的关键词在标题和页面说明部分都用红色高亮显示。

三、整合搜索结果

整合搜索结果其实是搜索结果格式的一种,展示的方式和内容与前面说的那种常规效果有所区别。我根据现在百度的搜索结果,发现其可能有以下几种形式:

图片结果:

视频结果:

新闻搜索结果:

垂直搜索结果:

除了整合搜索结果之外,作者还简要介绍了缩进列表、全站链接、迷你全站链接、One-box、富摘要、面包屑导航、说明文字中的链接等多种搜索结果展示方式。有兴趣的伙伴可以去看原书。

搜索引擎的工作原理:我们按了enter键后,那些结果如何一秒显示的?

如果有人关注过则会发现,我们每搜索一次,百度都要显示76页结果。以每页10个结果来算,那就是不到一秒的时间搜索引擎算出了760个结果。想象一下中国网民那么多。每秒同时搜索的人数以万记。这背后的计算如此巨大。当了解了搜索引擎背后的简要工作原理介绍后,我感觉“计算”不仅是一件有技术严谨的事,更是一种充满艺术感的事。

一不小心感叹了。废话不多说,让我们开启“艺术之旅”。

一、爬行和抓取:

搜索引擎是用蜘蛛(spider)程序进行爬行和访问页面的。具体的访问过程是:(绘制图片)

1、爬行步骤:蜘蛛程序发送页面访问请求→服务器返回HTML代码→蜘蛛程序把收到的代码存入原始页面数据库

2、跟踪链接:为了抓取网商尽量多的页面,蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面。蜘蛛有两种爬行遍历策略:

深度优先:A→A1→A2→A3→A4爬完后再返回A,再爬B这条线,即B1→B2→B3→B4

广度优先:A→A1→B1→C1,再爬第三层

3、吸引蜘蛛:虽然理论上蜘蛛可以爬行和抓取所有页面,但实际上是不能也不会这么做。所以蜘蛛所要做的就是尽量抓取重要页面。而SEO就要想方设法吸引蜘蛛来抓取。主要有一下几方面的影响因素:

网站和页面权重:

网站更新度:

导入链接:

与首页点击距离:

4、地址库:为了避免重复爬行和抓取网站,搜索引擎会建立一个地址库。地址库中的URL有几个来源:

人工录入的种子网站

蜘蛛抓取页面后,从HTML中解析出的链接URL

站长通过表格提交进来的网址

5、文件存储:

6、爬行时复制内容检测:遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行。

二、预处理:

“预处理”也被称为“索引”。蜘蛛抓取到的原始页面不能直接用于查询排名处理,必须经过预处理。主要包括:

1、提取文字:从HTML文件中去除标签、程序,提取出可以用于排名处理的网页文字内容。

2、中文分词:即把句子分为单词的组合。如“减肥方法”被分词为“减肥”和“方法”两个词。中文分词的方法基本分为梁总,一种是基于词典匹配,另一种时基于统计。

3、去停止词:停止词指出现频率高但对内容没有任何影响的词。如“的”“地”“啊”“哈”“却”“以”等。

4、消除噪声:绝大部分页面上还有一部分内容对页面主题也灭有贡献,如版权申明文字、导航条、广告等。搜索引擎需要识别并消除这些噪声。

5、去重:对页面特征关键词计算指纹,就是从页面主题内容中选取最有代表性的关键词以计算页面的重复性。

6、正向索引:在前面的工作完成后,接下来把每个页面记录成一个个关键词的集合。

7、倒排索引:正向索引还不能直接用户排名,因为用户不会按照文件名搜索,而是按照关键词搜索。所以要把文件对应关键词的映射转化为关键词到文件的映射。

8、链接关系计算:搜索殷勤为了计算网页的等级/重要性,必须计算网页之间的链接关系,如页面上有那些链接指向那些页面,每个页面有哪些导入链接,使用了什么锚文字等等。

9、特殊文件处理:

三、排名:

经过前面的蜘蛛抓取页面并预处理后,搜索引擎就准备好可以随时处理用户搜索了。

1、搜索词处理:与“预处理”过程中的词语处理有些类似,也包括中文分词、去停止词。除此之外还需要进行“指令处理”,即词与词之间的逻辑关系;拼写错误矫正和整合搜索触发。

2、文件匹配:分析关键词后,通过到怕索引快速匹配文件。

3、初始子集的选择:一个关键词经常会有千万级个文件,但用户并不需要知道所有匹配的文件。所以搜索引擎只需要计算前1000个结果的相关性就能满足要求(百度显示76页)。在计算相关性之前,会根据页面权重匹配出初始子集。

4、相关性计算:计算相关性是排名过程最重要的一步。主要包括以下几个方面

关键词的常用程度:越常用的词对搜索词的意义贡献越小,如“我们”。所以搜索引擎对搜索词串中的关键词并不是一视同仁地处理,而是根据常用程度进行加权。

词频及密度:一般来说在没有关键词堆积的情况下,搜索词在页面出现的次数越多,密度越高,说明页面与搜索词越相关。

关键词位置及形式:关键词出现在比较重要的位置,如标题标签、黑体、H1等,说明页面与关键词越相关。

关键词距离:如搜索“减肥方法”,切分后“减肥”和“方法”后,在页面中两个词出现的距离越近,相关性就会稍大一些。

链接分析及页面权重:页面有越多以搜索词为锚文字的导入链接,说明页面的相关性越强。

5、排名过滤及调整:进行相关性计算后,大体排名基本确定了。之后可能还会有一些过滤算法对排名进行轻微调整,比方说对有作弊嫌疑的页面机型惩罚等。

6、排名显示:排名确定后,排名程序调用原始页面的标题标签、说明标签、快照日期等。

7、搜索缓存:搜索引擎会把最常见的搜索词存入缓存,提高排名效率。

8、查询及点击日志:搜索引擎还会记录搜索用户的IP地址、搜索关键词、时间等。从而判断搜索结果质量、调整算法甚至预判搜索趋势等。

以上便是我认为的前两章中比较重要的内容,其中夹杂了一些个人的理解,如有错误,欢迎指正,希望大家能一起交流提升。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,482评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,377评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,762评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,273评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,289评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,046评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,351评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,988评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,476评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,948评论 2 324
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,064评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,712评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,261评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,264评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,486评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,511评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,802评论 2 345

推荐阅读更多精彩内容