requests使用get/post抓取数据踩过的坑

不知道初入门python爬虫的朋友是否有过跟我一样的经历，书是早几年的，书上的示例代码可能已经不适用了，需要做一些调整，才能将程序跑通。本人在学习python前三章的内容，就没少碰到这样的尴尬事，为此耗费了较多精力搜索、查阅相关资料。

前三章主要讲如何通过python的requests库使用get/post方法爬取网页或者API数据。本文说说我在这方面踩的坑。

1）安装requests库

书上的建议在pycharm中安装requests库，即打卡pycharm，单击“file”（文件菜单），选择“default settings”（默认设置）命令，如下图

图1

选择“project interpreter”（项目编辑器）命令，确认当前选择的编译器，然后单击右上角的加号，如下图

图2

在搜索框输入：requests（注意，一定要输入完整，不然容易出错），勾选“Install to user's site packages directory”（安装到用户的站点库目录）选项，如果不勾选该选项则会安装在临时目录中，然后单击左下角的“Install Package”（安装库）按钮，如下图

图3

到这一步就悲剧了，跟书上展示的完全不一样，此路不通。而书中的下一步应该如下图一般

截取自其它网页

本人从网上查阅了很多资料，至今都无法修复图3中“nothing to show”的情况，如果你有相应的解决办法，欢迎一起讨论哦。

2）get/post方法调用

I、get方法获取数据

书上只简单的给了一个示例，示例如下

# 使用GET方式抓取数据

import requests# 导入requests包

url ='http://www.cntour.cn/'

strhtml = requests.get(url)# GET方式获取网页数据

print(strhtml.text)

注：requests.get(url)只适用于不需要表头参数的信息获取，当API接口对表头数据有要求时，该方法已不使用，如下图API接口

阿里云市场上的天气信息API接口

接口的python示例代码

python3已经删除了urllib2的调用，若用requests调用接口，该代码要更改为

#获取城市列表

import requests#导入requests包

import json#导入json包

host ='http://weather-ali.juheapi.com'

path ='/weather/citys'

method ='GET'

appcode ='65070e518c474ff68837606434083cfa'

querys ='dtype=json'

bodys = {}

url = host + path +'?' + querys

headers = {'Authorization':'APPCODE ' + appcode} #设置http包头

response = requests.get(url,headers=headers) #调用http接口

# print(response)

data = response.text#获取response文本

# print(data)

data = json.loads(data) #将str字符串转换成dict字典

del data['resultcode'] #通过del删除字典的前两个元素

del data['reason']

print(data)

for item in data['result']:

print(type(item))

print(item)

注：API接口调用时，必传表头信息，表头信息的设置和接口的调用如下两行代码所示

headers = {'Authorization':'APPCODE ' + appcode} #设置http包头

response = requests.get(url,headers=headers) #调用http接口

II、post方法爬取百度翻译上的信息

输入网址“https://fanyi.baidu.com/?aldtype=16047#zh/en/”，按F12进入谷歌开发者模式，在待翻译框中输入“我爱中国”，显示如下

图4

图5

post方法获取网站信息，信息的爬取是动态的，代码中需要包含Request URL、Request Headers、Form Data的信息，三者缺一不可。代码如下：

# 使用POST抓取数据

import requests

import json

def get_translate_date(word =None):

url ='https://fanyi.baidu.com/v2transapi'

chinese = word

form_data = {'from':'zh','to':'en','query':chinese,'transtype':'realtime','simple_means_flag':'3','sign':'731618.1034963','token':'595cdd9cc5535f5221b042f98a8dff9e'}

request_headers = {'Accept':'*/*','Accept-Encoding':'gzip, deflate, br','Accept-Language':'zh-CN,zh;q=0.9','Connection':'keep-alive', \

'Content-Length':'154','Content-Type':'application/x-www-form-urlencoded; charset=UTF-8','Cookie':'REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; BIDUPSID=44BBBD72ED6CC7036FE60E4B97D24B27; PSTM=1494408740; hasSeenTips=1; MCITY=-179%3A; BDUSS=9NU1RzQ3pMc2p0Y1FrNlhCR3N5dDZ6ekl0cXdZUHJKQ3VUN1dtRjgydHRZRUJjQUFBQUFBJCQAAAAAAAAAAAEAAADNlc0beWV6aTA4MDYxNzE3AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAG3TGFxt0xhcQW; BAIDUID=5AACF8785E214AF7E5AD9394BE0D9F82:FG=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; H_PS_PSSID=1446_21125_28607_28584_26350_28603_20718; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; delPer=0; PSINO=5; locale=zh; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1552198524; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1552198524; to_lang_often=%5B%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%2C%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%5D; from_lang_often=%5B%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%2C%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%5D', \

'Host':'fanyi.baidu.com','Origin':'https://fanyi.baidu.com','Referer':'https://fanyi.baidu.com/?aldtype=16047','User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Mobile Safari/537.36', \

'X-Requested-With':'XMLHttpRequest'}

# 请求表单数据

response = requests.post(url,data = form_data,headers = request_headers)

# 将JSON格式字符串转字典

content = json.loads(response.text)

# 打印翻译后的数据

print(content['trans_result']['data'][0]['dst'])

if __name__ =='__main__':

get_translate_date('我爱中国')

注：输入的中文不同，Form Data中的sign和token会不同，本人暂未解决该问题，期待与大家一起讨论批量出入中文时，该如何动态获取Form Data中的sign和token

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,271评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,275评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,151评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,550评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,553评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,559评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,924评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,580评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,826评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,578评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,661评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,363评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,940评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,926评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,872评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,391评论 2赞 342

requests使用get/post抓取数据踩过的坑

推荐阅读更多精彩内容