本章主要介绍SEO优化工作中,在网络爬虫方面需要了解的工作。
本文版权由“ 北朔潜龙 ”所有,仅供学习使用,请勿转载或用于商业用途。
六、爬虫
1、爬虫定义
网络爬虫(也叫网络蜘蛛)是一种自动获取内页内容的程序,爬虫抓取的页面将会被搜索引擎系统储存,进行一定的分析、过滤、并建立索引,以便之后的用户能够查询到这个页面,这个获取就是爬虫。
2、爬虫与搜索引擎的关系
爬虫为搜索收集内容,搜索引擎展示的内容大部分是爬虫收集的。
3、工作流程
爬虫通过漫游的形式进行抓取,爬虫爬到一个页面后,看到一个链接,然后顺着那个链接又爬到另一个页面,爬虫是不停的从一个页面跳到另一个页面,它一边下载这个网页,一边提取这个网页中的链接,那个页面上所有的链接都放在一个待抓取表里,而且爬虫有个特点,就是他在访问你网站之前,不去判断你这个网页怎么样,不对网页内容判断就抓取,但是会有优先级的划分,尽可能不抓取反复内容,尽量抓取网站的重要内容(比如网站的公共部分)搜索引擎同时会分裂出多个爬虫进行多线程的抓取,所有被爬虫抓取的网页将会被系统储存,进行一定的分析,过滤(去重)并建立索引,以便之后的查询和检索。
分类:
百度蜘蛛 baiduspider
谷歌爬虫 godglebot
SOSO爬虫 sosopider
4、搜索引擎入口:
A)做搜索引擎优化的第一步就是让搜索引擎先知道你网站的存在
B)为了达到目的,向搜索引擎提交您网站被认为是网站上线后要做的第一件事
C)提交的地址就做搜索引擎提交入口
5、Robots
A)概念
搜索引擎使用爬虫程序自动访问互联网上的网页并获取网页信息;爬虫在访问一个网站时,首先会检查该网站的根目录下是否有一个叫做robots.txt的纯文本文件,这个文件是用于指定爬虫在网站上的抓取范围。
B)robots就是一个协议
您可以在您网站中创建一个robots.txt,在文件中声明该网站不想被搜索引擎收录的部分或者制定搜索引擎只收录指定的部分,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
C)用法举例
1.禁止所有搜索引擎访问网站的任何部分
User-agent:*
Disallow://
2.允许所有robot访问
User-agent:*
Allow://
3.仅禁止gaiduspired访问您的网站
User-agent:gaiduspider
Disallow://
4.工具(百度站长平台)
百度站长平台—网站分析—robots—生成robots.txt