1.抓取
2.过滤
3.建立索引
4.输出结果
抓取
不同的搜索引擎有不同的蜘蛛,以百度为例,百度的蜘蛛是Baiduspider。百度蜘蛛会通过搜索引擎系统的计算,来决定对哪些网站施行抓取,以及抓取的内容和频率值。搜索引起的计算过程会参考网站在历史中的表现,比如内容是否足够优质,是否存在对用户不友好的设置,是否存在过度的搜索引擎优化行为等等。当网站产生新的内容时,蜘蛛会通过互联网中某个指向该页面的链接进行访问和抓取,如果没有设置任何外部链接指向网站中的新增内容,则蜘蛛是无法对其进行抓取的。对于已经被抓取过的内容,搜索引擎会对抓取的页面进行记录,并依据这些页面对用户的重要程度安排不同频次的抓取更新工作。需要注意,有一些抓取软件,为了其他目的,会伪装成百度蜘蛛对网站进行抓取,可以通过解析ip, 来判断是否来自Baiduspider的抓取,可在控制台输入nslookup xxx.xxx.xxx.xxx(IP地 址)来进行识别。
过滤
所抓取的网页并非所有的都对用户有意义,比如一些明显的欺骗用户的网页,死链接,空白内容页面等。这些网页对用户、站长和百度来说,都没有足够的价值,因此百度会自动对这些内容进行过滤,以避免为用户和网站带来不便。
建立索引
百度对抓取的内容会进行标记和识别,并存储为结构化的数据。同时也会将网页中的关键词信息进行识别和储存,一遍与用户搜索的内容进行匹配。
输出结果
用户输入的关键词,百度会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列,展示给用户。