大家有没有遇到过这种情况,自己的公司新做了一个网站,坚持每天更新文章,1个月过去了,只收录了网站首页,其他页面都没有收录。
为什么呢?
通过今天这篇文章相信大家会有全新的认识。
其实学习过搜索引擎原理之后,你就会知道答案,这个跟搜索引擎爬虫的爬取策略有关。
这个其实我们在之前的搜索引擎原理课程里有讲到,大家错过的建议再去听一下,在网学堂公众号回复:听课,就可以获取课程地址
搜索引擎爬虫抓取有2大策略
1、深度优先抓取策略
2、广度优先抓取策略
为了让大家更容易理解这2个策略,给大家举个例子,如下图:
如果是深度优先抓取策略,搜索引擎爬虫的爬取路径为:
首页、栏目1、网页A、网页G、网页B、栏目2、网页C、网页D
简单一句话就是:一条道走到黑
如果是广度优先抓取策略,搜索引擎爬虫的爬取路径为:
首页、栏目1、栏目2、栏目3、网页A、网页B、网页C、网页D
简单一句话就是:螃蟹走路
搜索引擎针对不同的网站,其实采取的抓取策略是不同的,针对新站或权重低的网站,一般采取的是广度优先抓取策略
所以针对一个新站,一般是先收录首页、然后收录栏目页、最后才是内容页。
其实出现这种情况后,大家也不要担心,只要你的文章质量还可以,迟早是会收录的,如果你比较急,想快速收录,也是有方法的,有想学习的欢迎留言。