App爬虫篇 - 破解移动端登录,助力 Python 爬虫

image

阅读文本大概需要 10 分钟。

目 标 场 景

在移动互联网时代,很大一部分企业抛弃了传统的网站,选择将数据、服务整合到 App 端,因此 App 端无论是爬虫还是反反爬都显得尤为重要。

常见的 App 端的爬虫方式是利用 Appium 和 Airtest 驱动手机打开应用,操作页面,然后通过元素 ID 获取元素的内容,又或者借助 mitmproxy 捕获到请求的数据,最后将数据保存下来。

​如果要完成复杂的操作,加快爬虫的效率,就必须破解 App 端的登录,获取一些关键的数据,直接模拟接口请求,达到快速高效地爬取数据的目的。

image

本篇文章的目的是带大家「破解 App 端的登录」这一操作。

ps:本文仅限技术交流,请勿用于其他用途。

准 备 工 作

在开始编写脚本之前,需要做好如下准备工作

  • 待破解的 APK 应用,可去官网或者各大应用市场去下载,然后安装应用到手机中

  • 反编译工具,MAC OSX 推荐 Android Crack Tool 工具集,Win OS 可以使用 dex2jar 来反编译 APK 应用包

  • 源码浏览工具:jadx-gui

  • 抓包工具:Charles 或者 Fiddler

编 写 脚 本

第 1 步,确保手机配置好代理之后,就可以利用 Charles 对「获取****验证码」和「登录」进行抓包操作,得到请求地址、请求参数和请求头等数据。

image

第 2 步,对请求参数、请求头中「没有规律的数据」寻找生成的规律,并用 Python 代码来生成这些数据。

首先,我们查看获取验证码这一请求的参数,发现除了手机号码外,参数 t 可以很容易想到是请求的时间戳,唯独参数 token 在没有其他网络请求的情况下生成了。

def get_unix_time(type_13):
    """
    获取时间戳
    :param type_13:10位、13位,是否是13位
    :return:
    """
    t = time.time()

    if type_13:

        millis = int(round(t * 1000))
    else:
        millis = int(t)

    return millis

所以,我们大胆猜测:这个 token 是 App 端通过一定的逻辑生成的;****同理,请求头中 token 也是由 App 端生成

在我们多次发起获取验证码的操作之后,我们得出一个规律:参数中的 token 保持不变,与请求时间没有关系;请求头的 token 会随着时间的变化的也会发生变化。

我们利用 Android Crack Tool 对 APK 应用进行反编译,得到源码 Jar 包。

image

然后就可以使用 jadx-gui 工具打开源码 Jar 包,通过请求地址中的「关键词:login」搜索源码,就能找到请求发送的位置。

image

由于应用源码打包的时候混淆了代码,因此,我们需要根据上面的搜索结果去定位参数初始化位置及实现逻辑。

image

逐步往上追溯应用源码,可以找到按钮点击事件的监听函数。

具体实现逻辑是把用户输入的手机函数传给混淆后的函数 :b()

image

点击查看函数 b() 的实现逻辑,会发现方法中对手机号码进行了截取,获取当前日期时间,进行字符串的「第一次拼接」操作。

image

对第一部分的拼接我们用 Python 代码进行实现。

def __get_param_token(self, phone_num):
        """
        获取参数Token
        :return: BNpK8SMDiV6jTU4DR99A9vYoN9e90yBd
        """
        today = datetime.date.today()
        formatted_today = today.strftime('%Y%m%d')

        formatted_day = today.strftime('%m%d')

        # 参数1  手机号码|完整日期6位
        arg1 = phone_num + "|" + formatted_today
        
        # 手机号码后4位+日期包含月、日
        # 参数2  64230704
        # 字符串转为bytes
        arg2 = bytes(phone_num[7:] + formatted_day, encoding="utf8")

第一次拼接完成之后,我们发现又调用了一个函数 a(),参数为上面拼接生成的两个变量。

函数 a() 的内部使用「DES + Base64」加密算法来进行第二步的处理。

image

加密的操作用 Python 可以很轻松的实现。

def encode(arg1, arg2):
    """
    加密
    :param arg1:11位手机号码|完整日期 string
    :param arg2:手机后4位+日期4位  bytes
    :return:
    """
    des = DES.new(arg2, mode=DES.MODE_CBC, iv=bytearray([1, 2, 3, 4, 5, 6, 7, 8]))
    msg = des.encrypt(pad(arg1.encode(), DES.block_size))

    # 加密后的结果,bytes
    encode_result = base64.b64encode(msg)

    # 转为string
    return str(encode_result, encoding='utf-8')

需要注意的是,b()函数的最后一行,对第二步生成的字符串进行了特殊字符的替换操作,生成 Token 之前需要对数据进行同样的处理。

image

通过以上三步操作,就可以生成网络请求中的参数 Token。

同样的方式,针对请求中的 Token,我们通过查询 token 关键字查询源码。

image

通过观察,我们发现类 e 中的 b()函数的功能就是往请求中添加请求头,继续查看函数 b() 的实现类,发现这个类也全部被混淆了。

image

如果你细心一点,一定会发现当前实现类的包名是 Okhttp3,我们可以从 Github 下载 Okhttp3 的源码,然后进行对比,就能很清晰的知道里面的实现逻辑了。

ps:okhttp 是 Android 使用很多一个网络请求库。

image

通过对比没有混淆过的代码,可以很容易的编写出生成请求头中 Token 的逻辑。

def __get_head_token(self, method, url, data):
        """
        获取请求头Token
         分为Get和Post请求方式
        :param method: 请求方式
        :param url: 请求URL
        :param data: Post请求中的参数
        :return:
        """
        today = datetime.date.today()
        formatted_today = today.strftime('%Y%m%d')

        if method == Method.GET:
            # 请求的URL的query部分
            query_content = url.split('?')[1]
        else:
            query_content = urlencode(data)

        print('query_content:' + query_content)

        # 根据反编译后的源码增加对应的逻辑
        token_pro = query_content + "|" + formatted_today + '|zxw'

        # MD5计算
        token = md5(token_pro)

        return token

至此,这一步就完成两个 Token 的生成。

第 3 步就可以利用 Python「模拟发起一个请求」,来获取手机验证码了。

def get_code(self, timestamp):
    """
    获取验证码
    :return:
    """

    # 1.1 获取参数Token,与日期有关
    self.param_token = self.__get_param_token(self.phone)
    print("parm_token:" + self.param_token)

    # 1.2 获取请求头Token,与时间有关
    url = self.code_url.format(self.phone, timestamp, self.param_token)

    # 获取请求头中的Token
    self.head_token = self.__get_head_token(Method.GET, url, None)

    print('head_token【获取验证码】:' + self.head_token)

    # 2.获取手机验证码的URL
    get_code_url = self.code_url.format(self.phone, timestamp, self.param_token)

    # 3.修改Head中的token
    HEADERS['token'] = self.head_token

    print(get_code_url)

    # 4.发起【获取验证码】的请求
    resp = requests.get(get_code_url, headers=HEADERS)

    print('==' * 60)
    print(resp.text)

同理,后面的登录请求也是先通过抓包,使用上面生成的 Token 逻辑去修改请求头中 Token,然后模拟请求,就可以正常登录了。

def login(self, code, timestamp):
    """
    登录
    :return:
    """

    # 修改参数
    self.login_params['loginCode'] = code
    self.login_params['t'] = timestamp

    # 请求token
    # url = self.code_url.format(self.phone, timestamp, self.param_token)
    self.head_token = self.__get_head_token(Method.POST, None, self.login_params)

    print('head_token【登录】:' + self.head_token)

    HEADERS['token'] = self.head_token

    # 登录
    resp = requests.post(self.login_url, data=self.login_params, headers=HEADERS)

    print(resp.text)

结 果 结 论

通过模拟获取验证码的请求,等待手机收到验证码之后,输入验证码,然后再模拟登录的请求,就可以获取登录成功后的令牌。

image

由于验证码是由服务器产生的,这里没法获取生成逻辑,但是针对安卓手机可以监听通知栏消息元素,拿到短信验证码进行自动填入,就不需要人工输入了。

image

拿到登录令牌之后,理论上 App 上页面的各类网络请求都可以利用 Python 去模拟,后面提供的源码包含了一个完整抢票的流程。

本文首发于公众号「 AirPython 」,关注公众号后,回复「 App登录 」即可获得所有源码。

如果你觉得文章还不错,请大家点赞分享下。你的肯定是我最大的鼓励和支持。

推荐阅读:

10万+的短视频被批量生产了,Python表示不服

薅羊毛 | 揭秘闲鱼方案,一部手机,实现随时随地薅羊毛

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容

  • 点击查看原文 Web SDK 开发手册 SDK 概述 网易云信 SDK 为 Web 应用提供一个完善的 IM 系统...
    layjoy阅读 13,658评论 0 15
  • 这个世界最强悍的是自己,最脆弱的还是自己, 或许我比我想象中的更坚强———— 当所有人都离开了,我依然坚守岗位;当...
    独爱秋寂阅读 168评论 0 0
  • 西元一千九百九十年,黑吉辽、津冀鄂、湘蒙琼、陕徽浙十二省学子,凡二十五人,汇集长春,求学吉大,谓之九零考古文博。同...
    九哥的歌阅读 675评论 0 2