本机环境使用的是python2.7.x,自带urllib2模块,不需要对拓展包进行安装,因此,直接import utllib2即可。
urllib2下载网页的内容,其实是将网络中返回给浏览器的前端代码,包括html,js等内容收集过来。因此,我们得到的其实是一段包含html、js代码内容组成的字符串。
使用urllib2下载网页内容可以选择如下几种方式:
(1)直接下载
本方法适用于不需要用户输入任何信息的网页,例如获取百度首页的信息或某大学首页的信息。直接提供一个真实可靠的网址即可获取内容。
当你输入这几行代码,并且getcode返回的是200,那么证明你下载内容成功了。
response.read()
输出你获得的内容
类似这样的字符串,是其所返回的代码内容。
(2)添加header等内容的url
有时一些网站只支持浏览器发送出的请求,所以需要将爬虫伪装成浏览器,因此要在header中添加相应的参数。
(3)添加特殊情景的下载器
cj为获得的cookie的内容