通用爬虫 和 聚焦爬虫 两种
通用网络爬虫:主要用于大型搜索引擎
比如用户在百度搜索引擎上检索对应关键词时,百度将对关键词进行分析处理,从收录的网页中找出相关的再根据一定的排名规则进行排序后展现给用户,那么就需要尽可能多的互联网的优质网页
聚焦网络爬虫:也叫主题网络爬虫,爬取的目标网页定位在与主题相关的页面中,主要为某一类特定的人群提供服务,可以节省大量的服务器资源和带宽资源
比如要获取某一垂直领域的数据或有明确的检索需求,此时需要过滤掉一些无用的信息
爬虫的作用
市场分析:电商分析、商圈分析、一二级市场分析等
市场监控:电商、新闻、房源监控等
商机发现:招投标情报发现、客户资料发掘、企业客户发现等
认识网址的构成
一般一个网站的网址=域名+自己编写的页面,我们在访问同一网站的网页时,域名一般是不会改变的,因此我们爬虫所需要解析的就是网站自己所编写的不同页面的入口url,只有解析出来各个页面的入口,才能开始爬虫
爬虫基本的运作流程
首先确定目标网站,分析目标url
根据url发起请求,获取服务器返回的响应
从响应结果中提取目标数据
a) 提取目标数据
b) 提取新的url,执行第二步的循环
最终所有的目标url访问完毕,爬虫结