python入门实践四：爬取牛客网面试专项练习题及答案

说明:个人练手python用。
操作系统：window10 x64
IDE：Pycharm 2017.2.2
Python版本：3.6.2

目标

牛客网是一个IT笔试面试的平台，提供了很多题库，今天我们使用python爬取其中的Java专项练习库。

步骤

1、接口抓取：如果是爬取网页，前后端分离的项目可以抓取接口，如果没有分离，则需要爬取整个网页然后使用正则筛选。这里我们直接抓取客户端接口即可。
2、模拟网络请求，获取数据（这里是json）
3、json解析，题目格式调整、写入文件

一、接口抓取

工具：Fiddler
对象：牛客网Android客户端2.21.3.3091

通过Fiddler发现，获取专项练习题的接口为：

http://m.nowcoder.com/test/get-all-question?t=02436CC60E649584D5C4BBF57709E5CA&fm=android_app_2.21.3.3091&tid=10716711

这里：

t=02436CC60E649584D5C4BBF57709E5CA应该是用户身份标识
tid=10716711是本次练习的编号（Java专项练习一共900多道题，每次练习会随机组卷，组卷数量为5、10、20、30这些，这个tid就是组出的试卷的编号）

使用Fiddler模拟请求，就可以得到该tid对应10道题目的json数据了，由于每次请求tid没有变化，可以发现多次请求的json结果是一样的,类似下面的：

{
    "data": {
        "paper": {
            ......省略部分
            "diffcult": 3,
            "questionCount": 10,
            ......省略部分
        },
        "allQuestion": [
            {
                "score": 10,
                "shielded": false,
                "question": {
                    "content": "<p>\n  <span>下列关于构造方法不正确的是：（ </span>\n  <span> ）</span>\n</p>\n<p style=\"text-indent: 15.8pt;\">\n  <br>\n</p>\n<p>\n  <br>\n</p>",
                    "id": 69561,
                    "title": "下列关于构造方法不正确的是：（ ）",
                    "answer": [
                        {
                            "content": "类的构造方法和类同名",
                            "id": 111297,
                            "type": 0
                        },
                        ......省略部分
                    ],
                    ......省略部分
                },
                "pos": 1
            },
            ......省略部分
        ],
        "userAnswers": [
            {
                "userAnswer": "111300",
                "pos": 1
            },
            ......省略部分
        ]
    },
    "code": 0,
    "msg": "OK"
}

要想不一样，就需要不一样的tid了，发现生成tid的接口如下:

POST http://m.nowcoder.com/itest/request-make-paper HTTP/1.1
......省略部分request header

questionCount=10&tagIds=570&t=02436CC60E649584D5C4BBF57709E5CA&fm=android_app_2.21.3.3091&source=1

这是一个post请求，可以发现在request body中的questionCount就是表明了本次组卷试题的数量。

这样思路就清晰了：

根据request-make-paper接口获取tid，这里我们指定questionCount为30
根据get-all-question接口，传入tid参数，获取此次组卷的30道题的json数据
然后分析这30道题中的字段的含义，解析、存储即可

二、网络请求

定义一个方法，用于post请求，返回响应的内容，如下：

def post_json_data(url, request_body):
    req = request.Request(url)
    # 根据需要设置请求头，比如模拟浏览器请求设置UA、一些身份权限认证字段等都会放到header里
    req.add_header('OS', 'Android')
    req.add_header('VERSION', '82')
    req.add_header('CHANNEL', '360')
    req.add_header('User-Agent', 'nowcoder android 2.21.3.3091')
    # post请求，添加request body即可
    with request.urlopen(req, data=request_body.encode('utf-8')) as f:
        if f.status == 200:
            result_json = json.loads(f.read())
            return result_json

再定义一个方法，用于get请求，返回响应的内容，如下：

def get_json_data(url):
    req = request.Request(url)
    req.add_header('OS', 'Android')
    req.add_header('VERSION', '82')
    req.add_header('CHANNEL', '360')
    req.add_header('User-Agent', 'nowcoder android 2.21.3.3091')
    with request.urlopen(req) as f:
        if f.status == 200:
            result_json = json.loads(f.read())
            return result_json

如果把添加到request header中的这些key-value的参数组成dict，就可以通过外部传入，方法中遍历添加，上面两个方法就可以作为工具方法了。

接下来组装post请求的request body中的参数

data_make_paper = parse.urlencode([
    ('questionCount', '30'),
    ('tagIds', '570'),
    ('t', '02436CC60E649584D5C4BBF57709E5CA'),
    ('fm', 'android_app_2.21.3.3091'),
    ('source', '1')
])

就可以发送网络请求，获取响应数据了：

result = post_json_data('http://m.nowcoder.com/itest/request-make-paper', data_make_paper)
url_get_questions = "http://m.nowcoder.com/test/get-all-question" + \
                    "?t=02436CC60E649584D5C4BBF57709E5CA&fm=android_app_2.21.3.3091&tid=" + \
                    str(result['data'])

需要注意的是，需要引入request和parse模块：

from urllib import request,parse

三、json解析，题目格式调整、写入文件

先定义一个写入文件的方法，这里我们需要追加的形式写，也即后面写入的内容不能覆盖前面已经写入的：

def write_text(path, text, mode='a'):
    with open(path, mode=mode, encoding="utf-8") as f:
        f.write(text)
        f.write("<br>")

mode = 'a'就表示追加的形式写入。

接下来就是json解析、添加一下格式（如题目编号，选项编号，题与题之间的空行等）、然后写入文件了，直接看代码：

all_questions = get_json_data(url_get_questions)['data']['allQuestion']
# 题号信息，由于获取的题目没有编号
n = 1
# 提取出来方便修改，如果有明确的题目数量，可以嵌套一层循环来循环获取n套题。这里我们获取1套题作为演示
# 之所以写入到html文件，是因为读取的题目中含有html的格式信息
questions_name = "第1套.html"
questions_answer_name = "第1套答案.html"
for item_question in all_questions:
    # 获取题干信息
    question = item_question['question']
    question_type = ['(单选题)', '(不定项选择题)']
    # 写入题目信息
    write_text("C://python_test/"+questions_name, str(n)+". "+question_type[question['type']-1]+question['content'], 'a')
    answer = question['answer']
    answer_option = ''
    index = 0
    for item_answer in answer:
        # 获取选项信息
        answer_content = item_answer['content']
        answer_index_list = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']
        # 写入选项信息，加入ABCD等选项编号
        write_text("C://python_test/"+questions_name, answer_index_list[index]+". "+answer_content, 'a')
        # 获取type字段的值，为1表示该选项为正确答案
        answer_type = item_answer['type']
        if answer_type == 1:
            # 获取正确答案
            answer_option += answer_index_list[index]
        index += 1
    # 每题之间留空行
    write_text("C://python_test/"+questions_name, '', 'a')
    # 写入答案到另外一个文件中
    write_text("C://python_test/"+questions_answer_name, str(n)+"."+'答案: ' + answer_option, 'a')
    # 答案之间留空行
    write_text("C://python_test/"+questions_answer_name, '', 'a')
    # 编号自增
    n += 1

注意引入json模块

import json

python中的json和dict直接对应，非常方便。

案例Github地址

留个作业：

通过抓取答题接口，完成题目自动答题，保证每套题都得满分~

最后编辑于：2017.12.10 06:39:40

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 196,165评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,503评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,295评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,589评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,439评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,342评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,749评论 3赞 387
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,397评论 0赞 255
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,700评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,740评论 2赞 313
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,523评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,364评论 3赞 314
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,755评论 3赞 300
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,024评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,297评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,721评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,918评论 2赞 336

python入门实践四：爬取牛客网面试专项练习题及答案

目标

步骤

一、接口抓取

二、网络请求

三、json解析，题目格式调整、写入文件

留个作业：

推荐阅读更多精彩内容