不知道初入门python爬虫的朋友是否有过跟我一样的经历,书是早几年的,书上的示例代码可能已经不适用了,需要做一些调整,才能将程序跑通。本人在学习python前三章的内容,就没少碰到这样的尴尬事,为此耗费了较多精力搜索、查阅相关资料。
前三章主要讲如何通过python的requests库使用get/post方法爬取网页或者API数据。本文说说我在这方面踩的坑。
1)安装requests库
书上的建议在pycharm中安装requests库,即打卡pycharm,单击“file”(文件菜单),选择“default settings”(默认设置)命令,如下图
选择“project interpreter”(项目编辑器)命令,确认当前选择的编译器,然后单击右上角的加号,如下图
在搜索框输入:requests(注意,一定要输入完整,不然容易出错),勾选“Install to user's site packages directory”(安装到用户的站点库目录)选项,如果不勾选该选项则会安装在临时目录中,然后单击左下角的“Install Package”(安装库)按钮,如下图
到这一步就悲剧了,跟书上展示的完全不一样,此路不通。而书中的下一步应该如下图一般
本人从网上查阅了很多资料,至今都无法修复图3中“nothing to show”的情况,如果你有相应的解决办法,欢迎一起讨论哦。
2)get/post方法调用
I、get方法获取数据
书上只简单的给了一个示例,示例如下
# 使用GET方式抓取数据
import requests# 导入requests包
url ='http://www.cntour.cn/'
strhtml = requests.get(url)# GET方式获取网页数据
print(strhtml.text)
注:requests.get(url)只适用于不需要表头参数的信息获取,当API接口对表头数据有要求时,该方法已不使用,如下图API接口
python3已经删除了urllib2的调用,若用requests调用接口,该代码要更改为
#获取城市列表
import requests#导入requests包
import json#导入json包
host ='http://weather-ali.juheapi.com'
path ='/weather/citys'
method ='GET'
appcode ='65070e518c474ff68837606434083cfa'
querys ='dtype=json'
bodys = {}
url = host + path +'?' + querys
headers = {'Authorization':'APPCODE ' + appcode} #设置http包头
response = requests.get(url,headers=headers) #调用http接口
# print(response)
data = response.text#获取response文本
# print(data)
data = json.loads(data) #将str字符串转换成dict字典
del data['resultcode'] #通过del删除字典的前两个元素
del data['reason']
print(data)
for item in data['result']:
print(type(item))
print(item)
注:API接口调用时,必传表头信息,表头信息的设置和接口的调用如下两行代码所示
headers = {'Authorization':'APPCODE ' + appcode} #设置http包头
response = requests.get(url,headers=headers) #调用http接口
II、post方法爬取百度翻译上的信息
输入网址“https://fanyi.baidu.com/?aldtype=16047#zh/en/”,按F12进入谷歌开发者模式,在待翻译框中输入“我爱中国”,显示如下
post方法获取网站信息,信息的爬取是动态的,代码中需要包含Request URL、Request Headers、Form Data的信息,三者缺一不可。代码如下:
# 使用POST抓取数据
import requests
import json
def get_translate_date(word =None):
url ='https://fanyi.baidu.com/v2transapi'
chinese = word
form_data = {'from':'zh','to':'en','query':chinese,'transtype':'realtime','simple_means_flag':'3','sign':'731618.1034963','token':'595cdd9cc5535f5221b042f98a8dff9e'}
request_headers = {'Accept':'*/*','Accept-Encoding':'gzip, deflate, br','Accept-Language':'zh-CN,zh;q=0.9','Connection':'keep-alive', \
'Content-Length':'154','Content-Type':'application/x-www-form-urlencoded; charset=UTF-8','Cookie':'REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; BIDUPSID=44BBBD72ED6CC7036FE60E4B97D24B27; PSTM=1494408740; hasSeenTips=1; MCITY=-179%3A; BDUSS=9NU1RzQ3pMc2p0Y1FrNlhCR3N5dDZ6ekl0cXdZUHJKQ3VUN1dtRjgydHRZRUJjQUFBQUFBJCQAAAAAAAAAAAEAAADNlc0beWV6aTA4MDYxNzE3AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAG3TGFxt0xhcQW; BAIDUID=5AACF8785E214AF7E5AD9394BE0D9F82:FG=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; H_PS_PSSID=1446_21125_28607_28584_26350_28603_20718; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; delPer=0; PSINO=5; locale=zh; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1552198524; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1552198524; to_lang_often=%5B%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%2C%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%5D; from_lang_often=%5B%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%2C%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%5D', \
'Host':'fanyi.baidu.com','Origin':'https://fanyi.baidu.com','Referer':'https://fanyi.baidu.com/?aldtype=16047','User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Mobile Safari/537.36', \
'X-Requested-With':'XMLHttpRequest'}
# 请求表单数据
response = requests.post(url,data = form_data,headers = request_headers)
# 将JSON格式字符串转字典
content = json.loads(response.text)
# 打印翻译后的数据
print(content['trans_result']['data'][0]['dst'])
if __name__ =='__main__':
get_translate_date('我爱中国')
注:输入的中文不同,Form Data中的sign和token会不同,本人暂未解决该问题,期待与大家一起讨论批量出入中文时,该如何动态获取Form Data中的sign和token