Python网络爬虫（二）- urllib爬虫案例

Python网络爬虫（一）- 入门基础

Python网络爬虫（二）- urllib爬虫案例

Python网络爬虫（三）- 爬虫进阶

Python网络爬虫（四）- XPath

Python网络爬虫（五）- Requests和Beautiful Soup

Python网络爬虫（六）- Scrapy框架

Python网络爬虫（七）- 深度爬虫CrawlSpider

Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序

urllib的爬虫案例－通过最原始的爬虫方式

爬虫之前如果抓包工具Fiddler证书安装失败，采用以下方法

1、打开cmd
2、进入fillder的目录
如下：
里面的路径改成你自己的安装路径
cd /d "D:\Program Files (x86)\Fiddler2"
然后再执行下面命令
makecert.exe -r -ss my -n "CN=DO_NOT_TRUST_FiddlerRoot, O=DO_NOT_TRUST, OU=Created by http://www.fiddler2.com" -sky signature -eku 1.3.6.1.5.5.7.3.1 -h 1 -cy authority -a sha1 -m 120 -b 09/05/2012
下面提共一个批处理，打开你的fiddler2的目录把下面代码保存成一个creat.bat文件直接双击运行
cd %cd%
makecert.exe -r -ss my -n "CN=DO_NOT_TRUST_FiddlerRoot, >O=DO_NOT_TRUST, OU=Created by http://www.fiddler2.com" -sky >signature -eku 1.3.6.1.5.5.7.3.1 -h 1 -cy authority -a sha1 -m 120 -b >09/05/2012
pause

另外GET和POST数据传送的却别在于GET方式是直接以链接形式访问，链接中包含了所有的参数，同时也包含了自己密码，包含了密码的话是一种不安全的选择，不过优点在于可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数。

代码操作（一）爬取百度贴吧数据（GET方式爬取数据
,这里爬取的是战狼2贴吧的html）

# -*- coding:utf-8 -*-

#引入需要的模块
import urllib #用于进行中文编码
import urllib2  #用于进行爬虫核心处理

#定义一个函数，用于爬取对应的数据
def load_url(url,file_name):
    '''
    作用：针对指定的url地址，进行数据的获取
    :param url: 要爬取数据的具体url地址
    :param file_name: 要保存的文件名称；在当前函数中，只做提示使用
    :return: 爬取的数据
    '''
    print('开始爬取%s的内容'%file_name)
    #爬取程序
    my_headers={
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
    }
    request = urllib2.Request(url,headers=my_headers)
    content = urllib2.urlopen(request).read()
    print('爬取%s的内容完成！'%file_name)
    return content

#定义一个函数，用于保存数据
def save_data(data,file_name):
    '''
    作用：主要用于进行数据存储
    :param data: 要存储的数据
    :param file_name: 要存储的文件名称
    :return: 无
    '''
    print('开始保存%s的内容'%file_name)

    with open(file_name,'w') as f:
        f.write(data)
    print('保存%s的内容完成！'%file_name)


#定义函数，进行爬虫的核心处理功能
def spider(url,kw,begin,end):
    '''
    用于进行核心爬虫功能的调度
    :param url: 要爬取的地址
    :param kw: 贴吧名称
    :param begin: 起始页码
    :param end: 结束页码
    :return: 无
    '''
    for page in range(begin,end+1):
        #计算需要的页码
        pn = (page-1)*50
        #进行kw参数的编码
        kw = urllib.urlencode({'kw':kw})
        #拼接url地址
        full_url = url + kw +'&pn=' +str(pn)
        #定义一个保存文件的名称
        file_name = '网页'+str(page) +'.html'
        #开始爬取数据
        html=load_url(full_url,file_name)
        #保存数据到文件
        save_data(html,file_name)

#主程序运行入口
if __name__ == '__main__':
    #用户输入相关数据
    url='http://tieba.baidu.com/f?'
    kw = raw_input('请输入要爬取的贴吧名称：')
    begin = int(raw_input('请输入开始页码：'))
    end = int(raw_input('请输入结束页码：'))

    #调用爬虫开始执行
    spider(url,kw,begin,end)

得到两个文件，分别是战狼2贴吧首页和第二页的html代码

代码操作（二）爬取百度清纯妹子图(GET方式爬取Ajax数据)

# -*- coding:utf-8 -*-
import urllib
import urllib2

url = 'http://image.baidu.com/search//acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E9%9D%92%E6%98%A5%E5%A6%B9%E5%AD%90%E5%9B%BE&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&word=%E9%9D%92%E6%98%A5%E5%A6%B9%E5%AD%90%E5%9B%BE&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=&fr=&pn=30&rn=30&gsm=1e&1502192101260='
#请求头描述信息
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
}

#包装请求对象
request = urllib2.Request(url,headers=header)

#根据请求对象发送数据请求，获取服务器返回的响应对象
response = urllib2.urlopen(request)

#获取响应对象中的数据
content = response.read()

#将获取的数据保存在文件中
with open('qing.json','w') as f:
    f.write(content)

爬取的图片链接

代码操作（三）爬取豆瓣电影数据(POST方式爬取Ajax数据)

# -*- coding:utf-8

import urllib
import urllib2

url = 'https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10'

#要传递的post方式嗯对数据，有可能会有多组数据
submit_data = {
    'start':20,
    'tags':'喜剧'
}
#编码
data = urllib.urlencode(submit_data)

#构造请求头，创建请求对象
headers = {
    "Accept" : "application/json, text/plain, */*",
    "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.7 Safari/537.36",
    "Accept-Language" : "zh-CN,zh;q=0.8"
}

request = urllib2.Request(url,data,headers)

#发送请求，获取服务器响应数据
response = urllib2.urlopen(request)

#获取爬取到的数据
content = response.read()

#保存数据
with open('movies.json','w') as f:
    f.write(content)

代码操作（四）爬取qq空间数据(验证登录，在创建请求对象时，需加入cookie)

# -*- coding:utf-8 -*-

#引入需要的模块
import urllib
import urllib2

url = 'https://user.qzone.qq.com/695282525/infocenter'

my_header = {
    "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
 Chrome/60.0.3112.7 Safari/537.36",
    "Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,
image/apng,*/*;q=0.8",
    "Accept-Language" : "zh-CN,zh;q=0.8",
    'Cookie':'ptisp=ctc; RK=WY0mdGAKSq; ptcz=ed3988f5c1d469e118b8b58fd5afcda9770e51b2ed
2891a36c3445bd76a9efe7; pt2gguin=o0(QQ号码); uin=o0(QQ号码); skey=@ctrB6l4vj'
}

request = urllib2.Request(url,headers=my_header)

response = urllib2.urlopen(request)

html = response.read()

with open('qzone.html','w') as f:
    f.write(html)

最后编辑于：2020.12.04 14:11:51

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,053评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,527评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,779评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,685评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,699评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,609评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,989评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,654评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,890评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,634评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,716评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,394评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,976评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,950评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,191评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,849评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,458评论 2赞 342

Python网络爬虫（二）- urllib爬虫案例

Python网络爬虫（二）- urllib爬虫案例

目录：

urllib的爬虫案例－通过最原始的爬虫方式

推荐阅读更多精彩内容