本章主要介绍SEO优化工作中,在百度收录原理方面需要了解的工作。
本文版权由“ 北朔潜龙 ”所有,仅供学习使用,请勿转载或用于商业用途。
七、百度原理(收录)
搜索引擎为用户表现的每一条搜索结果,都对应着互联网上的一个页面,每一条搜索结果从产生到通过搜索引擎展现给用户,都需要经过四个过程,抓取过滤,建立索引和输出结果。
1、抓取
Baiduspider或称百度蜘蛛,会通过搜索引擎系统计算来决定对哪些网站进行抓取,以及抓取内容和频率值,搜索引擎的计算过程会参考该网站在历史中的表现,比如内容是否优质,是否存在对用户不友好的设置,是否存在过度搜索引擎优化等行为。
当网站产生新内容时,Baiduspider通过互联网中某个指向该页面的链接进行访问和抓取,如果网站设置任何外部链接指向网站中的新增内容,则Baiduspider是无法对其进行抓取的,对于已抓取的内容,搜索引擎会对抓取的页面进行记录,并根据这些用户的重要程度安排不同频次的抓取和更新工作。
需注意的是有一些抓取软件,为了各种目的会伪装成Baiduspider对您的网站进行抓取,这可能是不受控制的抓取行为,严重时会影响到网站的正常运作。
2、频率值
A)搜索引擎的硬件是有限的,不可能有太多的资源对每一个网站频繁光顾,简单的来说就是不同的网站,搜索引擎光顾的频率也是不一样的。
B)影响频率值
虽然蜘蛛针对不同的网站有不同的频率值,但是我们可以通过做一些事情影响他的频率值。
C)提升频率值的方法
经常更新网站,往往频率值会比较高,所以尽可能的持续更新,搜索引擎会形成习惯,为了提高工作效率,它会特别关注那些经常更新的网站。
D)历史记录
1.我们网站所有的历史记录会被搜索引擎记录下来,搜索引擎的计算过程会参考网站在历史中的表现。
2.这里提醒我们:网站前期不要犯错误,必须在进行网站建设的时候参与到前期的工作中。
3.三岁看到老,道理都是一样的,搜索引擎的执行是人的意志,你在“小时候”的行为搜索引擎都会记录在案。
3、过度优化
A)网站中加入隐藏的文字,隐藏的链接
B)与网页不相干的关键词
C)具有欺骗性的跳转或者欺骗性的重定向
D)专门针对搜索引擎的桥页,既所谓的过度页
E)针对程序生成的内容,制造大量内容命中搜索结果
F)大量重复无价值的内容
G)充斥着大量恶意广告,恶意代码的页面
H)群发链接等等
4、过滤
A)不要欺骗用户
B)对内容的把握上很多人是没什么概念的,比如采集,很多人乐此不疲,其实对收录有很坏的影响
C)误区
所谓搜索引擎抓取就是被搜索引擎收录了,实际上搜索引擎抓取一个页面和收录一个页面是不同的,他们之间还有一个环节就是过滤,搜索引擎的算法调整更多是对过滤环节的调整,
D)收录的问题往往集中在能否通过“过滤”,蜘蛛来抓取我们的页面就想来不是问题,
我们没有收录的页面不能因为蜘蛛没有来过,往往是因为在搜索引擎看来,页面对用户没有价值,被过滤掉就进不去搜索引擎的一个数据库,也就是没有收录。
5、输出结果
A)按道理到这里搜索引擎的工作就结束了,事实上才刚刚开始,它会对搜索结果进行持续的关注。
B)比如同一个词的搜索结果,排名第一的网站,用户跳出率极高,而排名第三的页面用户体验非常好的话,那么排名就要调整了。
6、索引库
搜索引擎的资料库
A)我们在查询任何一个关键词的时候,搜索引擎不是在当前查找,而是提前准备了一个数据库,就等着我们去查询,简单来讲就是搜索引擎提前把将它认为重要的页面信息尽可能的下载好,放在它的数据库中,这个供用户查询相关结果的,已经下载好了的数据库就是搜索引擎的资料库。
B)不同的搜索引擎他们的数据库也是不一样的,一般是在几十到一百亿个网站左右,我们就当100亿来计算。
7、索引库
A)搜索引擎的本职工作,我们在搜索一个关键词的时候,搜索引擎要在浩瀚的网页世界里找到我们需要的网页。
B)搜索引擎为什么那么快
搜索引擎已经对这些网页进行了分类,就像在图书馆看书一样,按照分类就可以节省很多时间。
C)这个经过分类的页面信息资料库就是我们讲的索引库。
8、索引库的建立和分类
A)不管中文还是引文,网页的总是是不断激增的,因为相关的新产品、新话题也是不断增加的,但是词语的总数是不变的,比如所有的中文词加起来也就不到10万,英文也就上百万个单词。
B)我们来算下,100万个英文单词,我们按照词来分类,一个单词就是一个类,100亿/100万=1万。中文我们就按照10万个词来算,也按照词来分类,一个词一个类,100亿/10万=10万,这种级别的数据对于搜索引擎的计算机来讲还是很容易处理的。
C)除了计算的方便,还有另外一个有效处理方式就是直接命中用户的搜索习惯,因为用户的习惯也是根据词来搜索的,通俗来理解,搜索引擎的索引库就是这样来工作的,当用户输入关键词“汽车轮胎”搜索时,搜索引擎就从“汽车”那行和“轮胎”那行里拿出同时都有的,交集的url即可,当然这是理想状态,实际上搜索引擎的工作远比这些来的复杂,但原理是类似的。
9、分词技术
A)概念
通过以上内容我们知道,想要建立索引库,有一件事必须要做,就是把页面上的内容进行拆分,分毫一个一个词之后放进索引库当中去,这就叫做分词,搜索引擎的这项技术就叫做分词技术。
B)理解
分词技术就是把词分开的意思,看起来很简单,这是搜索引擎的意向技能,这项技术对SEO的意义很大。
C)分词技术对于SEO的意义
1.比如我们的页面把“私人导游高端定制旅行”这个词优化到百度第一,那么与此同时,在“私人导游”“高端定制旅行”这些词上我们也有了很好的权重,知识我们没看到,后期我们加强一下,那么很容易排名就上来了。
2.根据分词技术,加入我们把“你”“我”这些字优化上去的话,搜索引擎是设法在其他词上给我们权重的。
3.所以我们在写页面内容,尤其是写网页title的时候要注意利用搜索引擎的这项技术,合理布局我们的关键词,使我们的网页能够命中更多的关键词,从而获得更多的关联关键词排名。