爬虫的原理是,从一个其实种子链接开始,发送http请求这个链接,得到该链接中的内容,然后大多正则匹配里面的有效链接,然后将这些链接保存到带访问队列中,等待爬取线程取这个待访问队列,一旦链接已访问,为了有效减少不必要的网络请求,我们把已访问的链接放到已访问的Map中,防止重复抓取和死循环。
以上提到的过程是一个简单的爬虫实现,还有更复杂的爬虫实现,如需要使用代理服务器‘伪装成浏览器、登录和提取验证码等。
这里面有几个概念,一个是发送http请求,一个是正则匹配你感兴趣的链接。
爬虫的原理相对简单,爬取网页的基本步骤如下:
- 人工给定一个URL作为入口,从这里开始爬取。
万维网的可视图呈蝴蝶型,网络爬虫一般从蝴蝶型左边结构出发,这里有一些门户网站的主页,而门户网站中包含大量有价值的链接 - 用运行队列和已完成队列保存不同状态的链接
对于大型数据而言,内存中的队列是不够用的,通常采用数据库模拟队列,用这种方法既可以进行海量数据抓取,又可以拥有断点续抓功能。 - 线程从运行队列读取队首URL,如果存在就继续执行,反之停止爬取。
- 每处理完一个URL,将其放入完成队列,防止重复访问
- 每次抓去网页后分析其中的URL,将经过过滤的合法连接写入运行队列,等待提取
- 重复步骤3.步骤 4.步骤 5.
基本方法
Python中最基本的网络怕取几行代码就可以实现,只需要使用urllib模块中的request即可:
#! /usr/bin/python3
#-*- coding:utf-8 -*-
from urllib import request
res=resquest.urlopen("https://movies.douban.com")
content=res.read().decode('utf-8')
print(content)
结果可以输出许多带HTML样式 的文本,大部分是无用的信息。
这种方法虽然非常简单,但抓取到的信息未经过任何加工处理,所以没有多大的用处
使用代理服务器
为什么要使用代理服务器?
当前很多网站都有反爬虫机制,一旦发现某个IP在一定时间内请求次数过多或请求频率太高,就可能将这个IP标记为恶意IP,从而限制这个IP的访问,或者将这个IP加入黑名单,使之不能继续访问该网站。
这时我们就需要使用代理服务器,通过使用不同的代理服务器继续抓取需要的信息。:
#! /usr/bin/python3
#-*- coding:utf-8 -*-
from urllib import request
pro_support=request.ProxyHandler({'http':'http://xx.xx.xx.xx:xx'})
opener=request.build_opener(pro_support,request.HTTPHandler)
request.install_opener(opener)
res=request.urlopen("https://movie.douban.com/top250").read().decode('utf-8')
print(res)
和基本方法一样,这样爬取的信息没有经过加工处理,也没有多大用处,需要进一步加工处理才能体现价值。
cookie处理
对于安全级别稍微高一点的网站,使用前两种方法都无法爬取数据。
这些网站需要在发送URL请求时提供cookie信息,否则无法请求成功:
#! /usr/bin/python3
#-*- coding:utf-8 -*-
from urllib import request
from http import cookiejar
cookie_=request.HTTPCookieProcessor(cookiejar.CookieJar())
opener=request.build_opener(cookie_,request.HTTPHandler)
request.install_opener(opener)
res=request.urlopen("https://movie.douban.com/top250").read().decode('utf-8')
print(res)
当然,这也是一种简单的方式,还可以拓展为更复杂的模式。
伪装成浏览器
当前很多网站都有反爬虫机制,对于爬虫请求一律拒绝
程序怎样区分一个请求是正常还是爬虫程序发送的请求呢?
程序通过判断发送请求中是否有浏览器信息判断一个请求是否为正常请求。
当访问有反爬虫机制的网站时,我们在请求中设置浏览器信息(伪装成浏览器),通过修改HTTP包中的header实现。
postdata=parse.urlencode({})
headers={
'User-Agent':'Mozilla/5.0(Windows Nt 6.1;en-US;rv:1.9.1.6)Gecko/20091201Firefox/3.5.6'
}
req=request.Request(url='https://www.zhihu.com/', data=postdata, headers=headers)
通过在headers中设置浏览器信息,并将headers放入request请求中,就可以伪装成浏览器。
登录
对于当前大多数网站来说,登录是必不可少的。
我们平常登录都时在浏览器上进行的。其实时通过浏览器向对应服务器发送登录请求,服务器验证通过后在向浏览器发送登录成功信息,并将页面转向登陆成功页面,展现相关内容。
使用爬虫程序登录时,其实就是模仿浏览器发送登录请求,将登录需要的用户名和密码放到请求数据中。
postdata=parse.urlencode({
'username':'XXXXXXXX',
'password':'XXXXXXXX',
'continueURL':'http://www.verycd.com/',
'fk':'fkasdfasdf'
'login_submit':'登录'
})
构建好请求数据后,再将构建的数据放入请求中;
req=request.Request(
url='https://www.zhihu.com/',
data=postdata
)
content=request.urlopen(req).read()
print(content)
通过这种方式可以模拟浏览器登录相关网站。
当然,还有不少网站需要验证码,这时需要编写获取验证码的程序。
❤️