高途基于WeChat Matrix MemGuard的重铸改造

一、前言

移动端性能优化相关的技术已经发展到了深水区,微信移动端技术团队出品的Matrix APM套件就是对性能优化的一个全集解决方案。高途移动端团队对微信移动端团队一直敬佩有佳,着手落地Matrix APM套件,在众多的套件里,有一个套件叫MemGuard,Matrix的GitHub主页有说明式的介绍,但在落地上的内容却少的可怜,本篇内容正是对MemGuard的重铸改造,并基于此的落地实践。

二、背景

高途移动端最核心的场景是上课,上课主要形式是直播和录播,底层大量使用C/C++,我们在享受高性能的同时,也在承受不稳定的侵袭,而在这不稳定中,内存问题一直是困扰C/C++开发的一大难题,Google一直致力于探索并解决C/C++的内存问题,并在Chromium上了落地了GWP-Asan这个开发套件,目前已经在Chrome上得到了充分的线上验证,微信客户端技术团队基于GWP-Asan推出了MemGuard套件,我们着手落地,但却遇到了不少问题。

三、MemGuard的实现原理

MemGuard是基于GWP-Asan修改的堆内存检测工具,通过阅读源码可以知道,微信的改造力度还是非常彻底的,但原理基本是一致的,下图为MemGuard实现原理图。

MemGuard实现原理

上面三层比较简单,MemGuard的Java API->JNI API->C++ API,提供初始化API和Builder的参数设置以及顺序初始化底层的6个模块,对于这6个模块可以把它分为两层,应用处理层和操作系统处理层。

应用处理层

1.PagePool

PagePool的功能,主要包含两部分

【1】申请一块虚拟地址空间,用来进行后续的内存检查,通过syscall调用mmap来进行内存映射(这是一种kernel层的调用方式,正常我们使用C函数mmap来进行内存映射),mmap的使用有标准的API,这里不赘述,但有几个技术细节需要关注

①通过sysconf(_SC_PAGESIZE)获取以字节为单位的Page的大小

②mmap的flag设置了MAP_PRIVATE和MAP_ANONYMOUS(用户空间内存分配分为两类,一类是file-backed,一类是 anonymous),前者是防止其他进程访问到这块虚拟地址空间,后者因为是anonymous内存空间,所以为了方便调试以及排查问题,使用如下去设置anonymous内存空间的名称。

设置当前进程匿名虚拟内存区域的名字

PagePool申请四类内存地址空间,这个策略与GWP-ASan是一致的,四类内存地址空间包括GUARD_PAGE,ALLOC_PAGE,FREE_SLOT,META_AREA,下图描述了每类内存地址空间的意义。

MemGuard内存检测原理

【2】申请完虚拟地址空间后,要对地址空间做可读可修改的保护,这样后续可操作这块地址空间。

使用syscall的方式设置指定内存空间的读和写保护属性

2.Interception

Interception在MemGuard里的核心功能主要是用xhook拦截libc.so里的free函数,拦截下来后,如果是在MemGuard的监控范围内,则记录在FREE_SLOTS内存地址空间,用于后续检测Use-After-Free的问题。

3.Allocation

Allocation的逻辑相对比较简单,主要用于触发左对齐,右对齐,内存free的逻辑,但核心逻辑还是会调用PagePool的方法。

操作系统处理层

1.Unwind

Matrix内部用于native backtrace的技术,具体原理可以参考文章【5】。 

2.SoLoadMonitor

SoLoadMonitor的功能,主要包含两部分

【1】自实现了系统dlopen,dlsym,dlclose等函数的功能,名叫semi_dlfcn,为什么要自实现呢?原因是从Android7以后系统会阻止动态链接非公开的C/C++库,标准的解决方案都是自实现,下面让我们看看各个函数是如何实现的?

semi_dlopen:Android5以上依赖系统dl_iterate_phdr函数来查询应用程序已加载的共享对象,Android5以下通过一行一行读取/proc/thread-self/maps文件来查询应用程序已加载的共享对象,其中会做一些异常校验,比如ELF文件合法性校验,是否是linker加载,文件权限检查等。

semi_dlsym:通过指定的符号名字,从semi_dlopen获取的共享对象列表里查找,如果ELF的类型是FUNC或者OBJECT,并且符号名字相等,则视为找到。

【2】有了以上两个重要函数的实现后,首先通过semi_dlsym查找系统dlopen,android_dlopen_ext和dlclose函数,然后利用xhook去接管系统dlopen,android_dlopen_ext和dlclose函数,进而走到自实现的dlopen,android_dlopen_ext和dlclose函数里,这里需要注意一点,SoLoadMonitor并未适配24和25,下面我们看看dlopen,android_dlopen_ext和dlclose函数系统兼容性的问题。

dlopen:大于等于24,dlopen对应的Linker符号表是__dl___loader_dlopen或__dl__Z8__dlopenPKciPKv,小于24对应的Linker符号表是__dl_dlopen。

android_dlopen_ext:大于等于24,android_dlopen_ext对应的Linker符号表是__dl___loader_android_dlopen_ext或__dl__Z20__android_dlopen_extPKciPK17android_dlextinfoPKv,小于24对应的Linker符号表是__dl_android_dlopen_ext。

dlclose:大于等于24,dlclose对应的Linker符号表是__dl___loader_dlclose或__dl__Z9__dlclosePv,小于24对应的Linker符号表是__dl_dlclose。

注:以上符号可以在/system/bin/linker或/system/bin/linker64可执行程序中查看

3.SignalHandler

SignalHandler主要功能是通过系统的sigaction函数注册监听SIGSEGV(是POSIX上的标准,代表段错误)信号量,细分code是SEGV_ACCERR(代表访问内存时发生的错误),要在Allocation的内存分配地址内,满足以上条件才会将dump的文件路径回传给应用层。

四、落地实践遇到的问题

虽然我们已经搞清楚了MemGuard的核心原理和代码实现细节,但在落地实践中还是遇到了一些问题。

【1】在阅读源码的时候,发现MemGuard组件和MemHook组件的初始化是互斥的,原因是两者都进行了C/C++函数内存创建和销毁API的hook,两遍初始化会造成性能和稳定性的问题,所以进行了初始化互斥操作。

【2】SEGV_ACCERR发生在堆内存的异常情况,SEGV_MAPERR发生在栈内存的异常情况,SignalHandler模块处理的是SEGV_ACCERR的异常情况,所以栈内存的异常情况MemGuard不会捕捉处理,实际测试已验证。

【3】每次检测到内存问题,MemGuard都会将问题记录在cache目录下memguard目录下的一个文件里,一个内存崩溃会生成一个文件,再次生成文件会覆盖原文件,那如何保证日志都采集上来呢?因为在检测出内存问题的时候处于一个极其不稳定的状态,立即上报存在失败情况,所以高途选择在下一次冷启动的时候进行上报,上报源是bugly,上报的时候带上关键字,在bugly后台可以非常方便的查询。

【4】MemGuard的思想是源于GWP-Asan,而GWP-Asan为了性能,每次发生SEGV_ACCERR内存崩溃,都会采样进行文件的生成,但高途是在Debug环境下使用,故需要添加外部可以100%采样的接口。

【5】MemGuard每次遇到SEGV_ACCERR的异常,App都会直接崩溃,为了提升用户体验,高途进行了规避崩溃操作,目前采用文件保护的方式,但在不同系统上实验发现并不能完全起到作用。

【6】上边我们提到MemGuard的SoLoadMonitor模块存在兼容性问题,故高途只在Android6以上开启MemGuard,保证App整体的稳定性。

【7】MemGuard堆栈解析出来的是符号表的信息,无法分析,故我们在线下使用addr2line命令还原带有符号表的so文件。 

【8】因为我们对源码进行了二次订制开发,所以需要对源码进行二次打包发布,通过gradlew assembleRelease和gradlew assembleDebug可打出aar的二进制产物,再将二进制产物发布到高途的Maven上去(包括matrix-hooks组件,matrix-android-lib组件,matrix-android-commons组件,matrix-backtrace组件),最后在App里直接依赖集成。

五、结语

Meta从IDE开发环境阶段,代码审查差异阶段,生产环境发布上线阶段出发,对修复问题的时效性进行了总结,如下图所示

Meta fix fast

高途对MemGuard的重铸改造,主要是在Diff阶段前的实践落地,结果发现了很多潜在的C/C++的内存问题,也算是一个不大不小的里程碑。

六、参考资料

【1】GWP-ASan

【2】字节Android Native Crash治理之Memory Corruption工具原理与实践

【3】Matrix Github

【4】Google正寻求提高C++内存安全

【5】介绍一种性能较好的Android native unwind技术

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,013评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,205评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,370评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,168评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,153评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,954评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,271评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,916评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,382评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,877评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,989评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,624评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,209评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,199评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,418评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,401评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,700评论 2 345

推荐阅读更多精彩内容