通过链家的地铁找房功能爬取地铁线路以及小区数据时,会碰到一个authorization参数,这个参数每次请求都会变化,而且不带也会请求失败,因此可初步判断是一个js加密参数。
我们通过chrome浏览器的断点功能找authorization的加密js代码
首先,抓包找到链接地址,点进去
然后,格式化代码并打上断点
点击地铁路线,进行网页刷新
Call Stack为函数框,Local为参数框,进入debugger模式后,重点是找到加密函数所在位置,一般逻辑是看在某个函数之前,我们所找的参数不存在,那这个函数就是我们要找的(函数调用是从下到上)
最后一个函数为send,参数栏没有发现authorization,但是我们在console中把t打印出来,发现t中是包含了authorization的,因此需往前推继续找加密函数
通过这样往前递归查找,我们发现第二个ajax函数之后,就不再出现我们的authorization参数了,因此可定位authorization的加密代码在第二个ajax里
同时发现ajax中存在l.authorization = s,var s = this.getMd5(l)两行代码,那么可确定authorization是被这个this.getMd5函数加密的了
点击进入这个函数,加上断点,并重新进入debugger模式
可以看到输入时一个字典,中间参数i是一个字符串,且i需要继续被n函数处理
进入n函数,发现是一系列的匿名函数与嵌套调用,继续研究需要耗费大量时间。我们仔细看一下n的名字,发现是md5加密,而python本身自带md5加密库,我们只需记录js代码的输入与输出,并与python的md5加密结果比对是否一致即可
js中md5函数的输入与输出
python中md5加密结果
比较发现结果一致,再继续运行断点到send,输出t,发现参数与我们计算出的一致
理一下最终的代码
import json
import time
import hashlib
import requests
# ------------------------------------------采集5号线所有站点的经纬度--------------------------------------------------
def get_md5(txt):
"""md5加密函数"""
m = hashlib.md5()
m.update(txt.encode('utf-8'))
return m.hexdigest()
def get_line_site(url):
"""请求链接"""
headers = {'Accept': '*/*',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Connection': 'keep-alive',
'Host': 'ajax.lianjia.com',
'Referer': 'https://gz.lianjia.com/ditu/',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
r = requests.get(url, headers=headers)
print(r.status_code)
return r
def get_url():
"""拼接链接"""
url = 'https://ajax.lianjia.com/map/subway/station/?city_id=440100&line_id=110460685&request_ts={' \
'request_ts}&source=ljpc&authorization={authorization}'
request_ts = int(time.time() * 1000)
md5_data = "vfkpbin1ix2rb88gfjebs0f60cbvhedlcity_id=440100line_id=110460685request_ts={request_ts}".format(
request_ts=request_ts)
authorization = get_md5(md5_data)
url = url.format(request_ts=request_ts, authorization=authorization)
return url
if __name__ == '__main__':
line_url = get_url()
print(line_url)
res = get_line_site(line_url)
items = res.json()['data']
with open('lon_and_lat.txt', 'w') as f:
json.dump(items, f)
print(items)
总结
1.多用断点调试,调试时重点关注输入、输出以及一些特殊名字(比如rsa、md5、base64等常用加密)
2.到加密部分,搞清楚使用的是哪种加密方式,优先使用python库代替
3.了解常用的加密原理很重要