2-urilib库基础

urllib爬取网页

import urllib.request

# 向指定的url地址发起请求,并返回服务器响应的数据(文件的对象)
response = urllib.request.urlopen("http://www.baidu.com")

# 读取问文件的全部内容,会把读取到的数据赋值给一个字符串变量
data = response.read()
print(data)
print(type(data))  # bytes

# 读取一行
#data = response.readline()

#读取文件的全部内容,会把读取到的数据赋值给一个列表变量
#data = response.readlines()
'''
print(data)
print(type(data))
print(len(data))
print(type(data[100].decode("utf-8")))  bytes->str
'''


#将爬取到的网页写入文件
# with open(r"C:\Users\dai\Desktop\file\file1.html", "wb") as f:
#     f.write(data)


#response 属性
#返回当前环境的有关信息
print(response.info())

#返回状态码
print(response.getcode())
#if response.getcode() == 200 or response.getcode() == 304:
    #处理网页信息
#    pass

#返回当前正在爬取的URL地址
print(response.geturl())


#
'''
url = r"https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=%E5%87%AF%E5%93%A5%E5%AD%A6%E5%A0%82&rsv_pq=96b2af980000cb00&rsv_t=ed0aZ%2FMEmvroTfrwq5E%2FJFwohlrfGzQfpCwXWirqpFgzTvJwE9WdPgDp4Jk&rqlang=cn&rsv_enter=1&rsv_sug3=3&rsv_sug1=2&rsv_sug7=100&rsv_sug2=1&prefixsug=%25E5%2587%25AF%25E5%2593%25A5&rsp=0&inputT=4668&rsv_sug4=5958"
#解码
newUrl = urllib.request.unquote(url)
print(newUrl)
#编码
newUrl2 = urllib.request.quote(newUrl)
print(newUrl2)
'''

爬取到的网页直接写入文件

import urllib.request

urllib.request.urlretrieve("http://www.baidu.com", filename=r"C:\Users\dai\Desktop\file\file1.html")

#urlretrieve在执行的过程当中,会产生一些缓存
#清除缓存
urllib.request.urlcleanup()

模拟浏览器

import urllib.request
import random

url = "http://www.baidu.com"

'''
#模拟请求头
headers = {
    "Accept" : "application/json, text/javascript, */*; q=0.01",
    "X-Requested-With" : "XMLHttpRequest",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36",
    "Content-Type" : "application/x-www-form-urlencoded; charset=UTF-8"
}
#设置一个请求体
req = urllib.request.Request(url,headers=headers)
#发起请求
response = urllib.request.urlopen(req)
data = response.read().decode("utf-8")
print(data)
'''


agentsList = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Maxthon/4.4.3.4000 Chrome/30.0.1599.101 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0"
]
agentStr = random.choice(agentsList)
req = urllib.request.Request(url)
#向请求体里添加了User-Agent
req.add_header("User-Agent", agentStr)
response = urllib.request.urlopen(req)
print(response.read().decode("utf-8"))

设置超时

import urllib.request


#如果网页长时间未响应,系统判断超时,无法爬取
for i in range(1, 100):
    try:
        response = urllib.request.urlopen("http://www.baidu.com", timeout=0.5)
        print(len(response.read().decode("utf-8")))
    except:
        print("请求超时,继续下一个爬取")

HTTP请求

'''
使用场景:进行客户端与服务端之间的消息传递时使用


GET: 通过URL网址传递信息,可以直接在URL网址上添加要传递的信息
POST: 可以向服务器提交数据,是一种比较流行的比较安全的数据传递方式
PUT: 请求服务器存储一个资源,通常要指定存储的位置
DELETE: 请求服务器删除一个资源
HEAD: 请求获取对应的HTTP报头信息
OPTIONS:可以获取当前UTL所支持的请求类型


'''

GET请求


'''
特点:把数据拼接到请求路径的后面传递给服务器

有点:速度快

缺点:承载的数据量小,不安全
'''

import urllib.request
url = "http://www.sunck.wang:8085/sunck"
response = urllib.request.urlopen(url)
data = response.read().decode("utf-8")
print(data)
print(type(data))


with urllib.request.urlopen('http://www.baidu.com') as response:
    html = response.read()
    print(html.decode())
    print(response.code)  # 200
    print(response.headers)

json数据解析

'''
概念:一种保存数据的格式
作用:可以保存本地的json文件,页可以将json串进行传输,通常将json称为轻量级的传输方式

json文件组成
{}     代表对象(字典)
[]     代表列表
:      代表键值对
,     分隔两个部分
'''
import json

jsonStr = '{"name":"sunck凯", "age":18, "hobby":["money","power","english"], "parames":{"a":1,"b":2}}'
#将json格式的字符串转为python数据类型的对象
jsonData = json.loads(jsonStr)
print(jsonData)
print(type(jsonData))  # dict
print(jsonData["hobby"])

#将python数据类型的对象转为json格式的字符串
jsonData2 = {"name":"sunck凯", "age":18, "hobby":["money","power","english"], "parames":{"a":1,"b":2}}
jsonStr2 = json.dumps(jsonData2)
print(jsonStr2)
print(type(jsonStr2)) # str


#读取本地的json文件
path1 = r"C:\Users\dai\Desktop\Json\caidanJson.json"
with open(path1, "rb") as f:
    data = json.load(f)
    print(data)
    #字典类型
    print(type(data))


#写本地json
path2 = r"C:\Users\dai\Desktop\Json\test.json"
jsonData3 = {"name":"sunck凯", "age":18, "hobby":["money","power","english"], "parames":{"a":1,"b":2}}
with open(path2, "w") as f:
    json.dump(jsonData3, f)

Post请求

'''
特点:把参数进行打包,单独传输

优点:数量大,安全(当对服务器数据进行修改时建议使用post)

缺点:速度慢
'''
import urllib.request
import urllib.parse

url = "http://www.sunck.wang:8085/form"
#将要发送的数据合成一个字典
#字典的键取网址里找,一般为input标签的name属性的值
data = {
    "username":"sunck",
    "passwd":"666"
}
#对要发送的数据进行打包,记住编码
postData = urllib.parse.urlencode(data).encode("utf-8")
type(postDate)   
# <class 'bytes'>
# b'username=sunck&passwd=666'
#请求体
req = urllib.request.Request(url, data=postData, method='POST')
#请求
req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Maxthon/4.4.3.4000 Chrome/30.0.1599.101 Safari/537.36")


with urllib.request.urlopen(req)  as response:
    html = response.read()
print(html.decode('utf-8'))

如何获取cookie

from http import cookiejar
import urllib.request

# 创建一个cookie对象
cookie = cookiejar.CookieJar()
print(cookie)  # <CookieJar[]>

# 创建一个cookie处理器
cookie_process = urllib.request.HTTPCookieProcessor(cookie)

# 创建一个opener
opener = urllib.request.build_opener(cookie_process)

with opener.open('http://10.31.161.59/admin/') as response:
    print(response)

print(cookie)


# 存储cookie并加载cookie
# 创建一个cookie对象
cookie = cookiejar.MozillaCookieJar("cookie.txt")  # 指定存储的文件名
print(cookie)

# 创建一个cookie处理器
cookie_process = urllib.request.HTTPCookieProcessor(cookie)

# 创建一个opener
opener = urllib.request.build_opener(cookie_process)

with opener.open('http://10.31.161.59/admin/') as response:
    print(response)

cookie.save()  # 存储
print(cookie)


# 加载cookie 可以使用Firebug插件导出cookies文件
cookie = cookiejar.MozillaCookieJar()
cookie.load("cookie.txt") 
print(cookie)

模拟登录过程

import urllib.request
import urllib.parse
from http import cookiejar

url = "http://10.31.161.59/admin/login/?next=/admin/"

values = {
    "csrfmiddlewaretoken":"",
    "username":"xiaomning",
    "password":"sunwenquan"
}


cookie = cookiejar.CookieJar()
cookie_process = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(cookie_process)


with opener.open(url) as response:
    for item in cookie:
        values["csrfmiddlewaretoken"] = item.value
        print(item.value)
        print(item.name)
        print(dir(item))

data = urllib.parse.urlencode(values).encode('utf-8')
req = urllib.request.Request(url,data=data)
response =opener.open(req)
with open("admin.html",'wb') as f:
    f.write(response.read())
print(response.read().decode('utf-8'))


print("-----------------------------------")
for item in cookie:
    print(item.name,item.value)

抓取网页动态Ajax请求的数据


import urllib.request
import ssl
import json


def ajaxCrawler(url):
    headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Maxthon/4.4.3.4000 Chrome/30.0.1599.101 Safari/537.36"
    }
    req = urllib.request.Request(url, headers=headers)

    #使用ssl创建未验证的上下文
    context = ssl._create_unverified_context()
    response = urllib.request.urlopen(req,context=context)

    jsonStr = response.read().decode("utf-8")
    jsonData = json.loads(jsonStr)

    return jsonData

'''
url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=20&limit=20"
info = ajaxCrawler(url)
print(info)
'''


for i in range(1, 11):
    url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start="+ str(i * 20)+"&limit=20"
    info = ajaxCrawler(url)
    print(len(info))

嗅事百科爬虫

import urllib.request
import re


def jokeCrawler(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Maxthon/4.4.3.4000 Chrome/30.0.1599.101 Safari/537.36"
    }

    req = urllib.request.Request(url, headers=headers)
    response = urllib.request.urlopen(req)

    HTML = response.read().decode("utf-8")

    pat = r'<div class="author clearfix">(.*?)<span class="stats-vote"><i class="number">'
    re_joke = re.compile(pat, re.S)
    divsList = re_joke.findall(HTML)
    #print(divsList)
    #print(len(divsList))
    dic = {}
    for div in divsList:
        #用户名
        re_u = re.compile(r"<h2>(.*?)</h2>", re.S)
        username = re_u.findall(div)
        username = username[0]
        #段子
        re_d = re.compile(r'<div class="content">\n<span>(.*?)</span>', re.S)
        duanzi = re_d.findall(div)
        duanzi = duanzi[0]

        dic[username] = duanzi

    return dic

    #with open(r"C:\Users\xlg\Desktop\Python-1704\day18\file\file3.html", "w") as f:
    #    f.write(HTML)


url = "https://www.qiushibaike.com/text/page/1/"
info = jokeCrawler(url)
for k, v in info.items():
    print(k + "说\n" + v)



#https://www.douban.com/group/topic/41562980/?start=0
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容

  • 1, 你用过的爬虫框架或者模块有哪些?谈谈他们的区别或者优缺点? Python自带:urllib,urllib2 ...
    城北有梦阅读 5,995评论 0 11
  • 一、Gecco是什么 Gecco是一款用java语言开发的轻量化的易用的网络爬虫,不同于Nutch这样的面向搜索引...
    4ea0af17fd67阅读 2,018评论 0 1
  • 上网原理 1、爬虫概念 爬虫是什麽? 蜘蛛,蛆,代码中,就是写了一段代码,代码的功能从互联网中提取数据 互联网: ...
    riverstation阅读 8,030评论 1 2
  • 目录: Python网络爬虫(一)- 入门基础Python网络爬虫(二)- urllib爬虫案例Python网络爬...
    一只写程序的猿阅读 37,188评论 3 49
  • BC省最耀目的是温哥华,国人移民去的颇多,但在我心目中盐泉岛才是邂逅梦想的地方。盐泉岛(Salt Spring I...
    泰然已兑阅读 675评论 0 1