网络爬虫(Web Spider)是什么
网络爬虫也叫网络蜘蛛,即Web Spider,名字也是非常之形象。
如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。
网络蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,一直循环下去,直到把整个网站所有的网页都抓取完为止。
如果把整个互联网就当成一个网站,那么网络蜘蛛可以用这个原理把互联网上所有的网页都抓取下来。
爬虫是用来干嘛的??
爬虫就是从网页中爬取数据的,这些数据可以是网页代码、图片、视频、音频等等,只要是浏览器网页中可以呈现的,都可以通过爬虫程序获取。
但是有很多从网页上获取数据有很多种方法,如:迅雷,抓站工具等
为什么要用爬虫??
爬虫可以从网上爬去大量的数据,相对与手工下载工具之类的,在需要大量数据据的时候,爬虫会更省时,提高效率。
下面是引用别人的
对于数据的采集工作,一般情况下不会是少量数据的定向采集,通常会是大量网站大量数据的集中采集,然后对于这些大量数据进行筛选分析,如~XX公司要开发一套新闻网站[web项目],需要大量的新闻素材作为网站的基础数据,现要对1000个指定的新闻网站中的30天的数据进行获取。通常情况下,如果是针对性的大量数据的采集工作,我们会使用爬虫程序进行自动化操作。
爬虫分类
-
通用爬虫
- 搜索引擎常用的信息数据采集手段,遵循数据采集的robot协议{该协议是约定的一种规范,约定了哪些数据可以让搜索引擎的爬虫采集!}
- 通用爬虫通常是很多网站比较欢迎的一种操作手段,通用爬虫可以引入新的客户流量,用户在访问当前网站时,除了直接通过url地址访问,还可以通过搜索引擎导向访问当前网站!
- 通用爬虫存在一定的缺陷:通用爬虫~一般是提供公共的数据给所有的用户使用的,没有针对性、对于搜索数据的关键词不会有语义化定义、数据的采集比较分散
-
聚焦爬虫
程序开发人员针对具体的需求,针对性的开发获取数据的程序,通过程 序的自动化操作,完成人工筛选过程~[自定义采集方式、自定义筛选条件、自定义过滤措施->私人订制!],不需要遵循robot协议!可以获取到更加准确的数据!
第一个爬虫程序
环境:python2.7
# -*- coding: utf-8 -*-
# python2中使用的是ACSII编码,对中文支持不太好,所以一般在程序第一行加一行注释说明使用的什么编码格式
# 引入需要的模块
import urllib2
# 爬求指定网页
response = urllib2.urlopen("https://www.taobao.com")
print(response.read())