爬虫破解:解决CSRF-Token反爬问题 - 上海市发展和改革委员会

标题:爬虫破解:解决CSRF-Token反爬问题 - 上海市发展和改革委员会

网址:https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home

MD5加密:ca7f5c978b1809d15a4b228198814253

需求文档

采集数据如下所示:

数据示例

解决反爬思路

这里只提供解决思路,解决反爬,有测试代码样例,没有完整的爬虫代码

尝试抓包

首先,我们可以尝试抓包分析网站的反爬机制。

  1. 进入网站,点击"项目建议书审批",然后点击下一页。
抓包示例1
  1. 找到需要的请求,发现它是一个POST请求。
抓包示例2

模拟POST请求

接下来,我们可以尝试模拟这个POST请求来获取数据。以下是一个示例Python代码:

import requests

cookies = {
    'Path': '/',
    'JSESSIONID': 'BE1ABA861B2AA525CA8E826173849B83',
    'zh_choose': 's',
    '_pk_testcookie.223.75aa': '1',
    '_pk_ses.223.75aa': '1',
    'pageSize': '10',
    'pageNo': '1',
    '_pk_id.223.75aa': 'c4732de64ef93638.1696815438.1.1696817644.1696815438.',
}

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Origin': 'https://fgw.sh.gov.cn',
    'Referer': 'https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/list?projectType=%E9%A1%B9%E7%9B%AE%E5%BB%BA%E8%AE%AE%E4%B9%A6%E5%AE%A1%E6%89%B9&csrfToken=646702af-2c3f-4699-8bdf-bb8673d19f24',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',
    'sec-ch-ua': '"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
}

data = {
  'pageNo': '2',
  'pageSize': '10',
  'csrfToken': '11e6ee1f-df4b-404d-8fa2-d2dcf67835f3',
  'projectType': '\u9879\u76EE\u5EFA\u8BAE\u4E66\u5BA1\u6279',
  'projectName': '',
  'projectCode': '',
  'approvalNumber': '',
  'searchTime': ''
}

response = requests.post('https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchList', headers=headers, cookies=cookies, data=data)

print(response.text)

分析反爬机制

然而,我们得到的响应状态码是550,且返回数据显示系统维护中,这表明服务器可能已经识别了我们的爬虫请求并进行了反爬处理。

绕过反爬

接下来,我们需要思考如何绕过这个反爬机制。这可能需要进一步的分析和试验,以确定服务器的反爬策略,并采取相应的措施来避免被屏蔽。

我们看下他的表单参数

可以看到,只有4个有值

我们在向下翻一页:


可以看到,有2个参数变化了,分别是 pageNocsrfToken

pageNo 是页数

这里我们可以猜测 csrfToken 就可能是变动的

我们搜索下 csrfToken ,需要找到 csrfToken 从哪里来的


这里我们可以看到,在我们需要的请求源码中,有 csrfToken
但是 这个请求源码中的csrfToken肯定不是我们要的, csrfToken肯定在之前就有了
我们返回前一个url看下

https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home页面中,我们搜下 csrfToken ,可以看到请求中,有我们需要的 csrfToken

这样我们可以猜测,csrfToken 是从前一个请求中返回过来的

然后在https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchListpost请求参数中使用

我们来测试一下

构建一下测试样例:

import re
import requests
ss = requests.Session()

headers = {
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',
    'sec-ch-ua': '"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
}

response = ss.get('https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home', headers=headers)
print(response.text[:500])
print(response)
zz = re.search(r'<input\s*type="hidden"\s*name="csrfToken"\s*value="([^"]*?)">',response.text)
print(zz.group(1))
cookies = {
    'Path': '/',
    'JSESSIONID': 'BF37359F2295BADD102E4320059265B9',
    'zh_choose': 's',
    '_pk_testcookie.223.75aa': '1',
    '_pk_ref.223.75aa': '%5B%22%22%2C%22%22%2C1696754775%2C%22https%3A%2F%2Fcn.bing.com%2F%22%5D',
    '_pk_ses.223.75aa': '1',
    'pageNo': '1',
    '_pk_id.223.75aa': 'c70deb457c37fd61.1696754775.1.1696754862.1696754775.',
}

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Origin': 'https://fgw.sh.gov.cn',
    'Referer': 'https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/list?projectType=%E8%8A%82%E8%83%BD%E5%AE%A1%E6%9F%A5&csrfToken=ea2a2a35-0c83-470e-9771-f54379508cae',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',
    'sec-ch-ua': '"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
}

data = {
  'pageNo': '2',
  'pageSize': '10',
  'csrfToken': zz.group(1),
  'projectType': '\u8282\u80FD\u5BA1\u67E5',
  'projectName': '',
  'projectCode': '',
  'approvalNumber': '',
  'searchTime': ''
}

response = ss.post('https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchList', headers=headers, cookies=cookies, data=data)

print(response.text[:10001])
print(response)

这里我先请求了https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/home,然后re提取源码中的csrfToken

再请求https://fgw.sh.gov.cn/fgw-interaction-front/biz/projectApproval/searchList,并把 csrfToken 放到post参数中

看下返回结果:

返回200,数据也是正常了

我们成功解决这个CSRF-Token反爬问题!!!🕵️♂️📊

本文由mdnice多平台发布

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容