质量监控-启动crash

相较于正常的崩溃问题，启动crash造成的损失要远远大得多。正常来说，如果有足够强健的构建发布系统，大多数时候能在版本上线之前及时发现问题并且修复，但是仍然存在小概率的线上意外。启动crash一般同时具备损害严重以及难以捕获两大特点

启动过程

从应用图标被用户点击开始，直到应用可以开始响应发生了很多事情。正常来说，尽管我们希望crash监控工具启动的尽可能早，但接入方往往总是等到launch事件之后才能启动工具，而在这个时间之前发生的崩溃就是启动crash，下面列出了在应用直到launch时，存在的可能发生启动crash的阶段：

image

其中initialize的顺序可能在更早，但总是会在load和launch之间。从图中来说，如果我们想要监控启动crash，那么开始监控的时间点必须要放到load阶段，才能保证最好的监控效果

如何监控

最简单的方式是不管接入方愿不愿意启动crash监控，我们在load方法中直接启动监控功能。但是这样的做法会让应用面临四个风险点：

类似A/B的线上开关方案失去了对监控工具的控制能力
crash监控启动存在崩溃问题，这将导致应用完全瘫痪
load阶段类未加载完毕，启动工具过程的递归加载引发的崩溃无法监控

综合这些风险点，启动crash监控的方案应该满足这些条件：

启动过程不依赖类，避免递归加载造成的crash
一旦过程发生crash，能够保证日志记录的安全性

最终得出监控的流程图：

image

不依赖类

不依赖类意味着监控工具需要使用C接口来实现功能，虽然比较麻烦，但由于runtime的机制决定了所有方法调用最终要以objc_msgSend函数作为入口，因此如果能够hook掉这个函数并且实现一个调用栈结构，将所有调用入栈记录，那么追踪方法调用就不是难事。fishhook提供了hook掉函数的能力：

__unused static id (*orig_objc_msgSend)(id, SEL, ...);

__attribute__((__naked__)) static void hook_Objc_msgSend() {
    /// save stack data
    /// push msgSend
    /// resume stack data
    
    /// call origin msgSend
    
    /// save stack data
    /// pop msgSend
    /// resume stack data
}

void observe_Objc_msgSend() {
    struct rebinding msgSend_rebinding = { "objc_msgSend", hook_Objc_msgSend, (void *)&orig_objc_msgSend };
    rebind_symbols((struct rebinding[1]){msgSend_rebinding}, 1);
}

实现msgSend

__naked__修饰的函数告诉编译器在函数调用的时候不使用栈保存参数信息，同时函数返回地址会被保存到LR寄存器上。由于msgSend本身就是用这个修饰符的，因此在记录函数调用的出入栈操作中，必须保证能够保存以及还原寄存器数据。msgSend利用x0 - x9的寄存器存储参数信息，可以手动使用sp寄存器来存储和还原这些参数信息：

/// 保存寄存器参数信息
#define save() \
__asm volatile ( \
    "stp x8, x9, [sp, #-16]!\n" \
    "stp x6, x7, [sp, #-16]!\n" \
    "stp x4, x5, [sp, #-16]!\n" \
    "stp x2, x3, [sp, #-16]!\n" \
    "stp x0, x1, [sp, #-16]!\n");

/// 还原寄存器参数信息
#define resume() \
__asm volatile ( \
    "ldp x0, x1, [sp], #16\n" \
    "ldp x2, x3, [sp], #16\n" \
    "ldp x4, x5, [sp], #16\n" \
    "ldp x6, x7, [sp], #16\n" \
    "ldp x8, x9, [sp], #16\n" );
    
/// 函数调用，value传入函数地址
#define call(b, value) \
    __asm volatile ("stp x8, x9, [sp, #-16]!\n"); \
    __asm volatile ("mov x12, %0\n" :: "r"(value)); \
    __asm volatile ("ldp x8, x9, [sp], #16\n"); \
    __asm volatile (#b " x12\n");


/// msgSend必须使用汇编实现
__attribute__((__naked__)) static void hook_Objc_msgSend() {

    save()
    __asm volatile ("mov x2, lr\n");
    __asm volatile ("mov x3, x4\n");
    
    call(blr, &push_msgSend)
    resume()
    call(blr, orig_objc_msgSend)
    
    save()
    call(blr, &pop_msgSend)
    
    __asm volatile ("mov lr, x0\n");
    resume()
    __asm volatile ("ret\n");
}

日志记录

常规的I/O处理不能保证crash发生的数据安全，因此mmap是最适合用于此场景的方案。mmap能保证即便是应用发生了不可抗拒的崩溃时，也能完成将文件写入IO的工作。另外我们只需记录class和selector的调用栈信息，在不存在递归算法的情况下，只需要很小的内存使用就能记录这些数据：

time_t ts = time(NULL);
const char *filePath = [NSSearchPathForDirectoriesInDomains(NSDocumentDirectory, NSUserDomainMask, YES).lastObject stringByAppendingString: [NSString stringWithFormat: @"%d", ts]].UTF8String;

unsigned char *buffer = NULL;
int fileDescriptor = open(filePath, O_RDWR, 0);
buffer = (unsigned char *)mmap(NULL, MB * 4, PROT_READ|PROT_WRITE, MAP_FILE|MAP_SHARED, fileDescriptor, 0);

buffer就是我们写入数据的缓冲区，为了保证调用栈的信息准确，每次调用函数信息出入栈的时候，都需要更新缓冲区的数据。一个可行的方式是每个调用记录添加一个@符号前缀，总是保存最后一个调用记录的此符号下标，出栈时清除该下标之后的所有数据即可

static inline void push_msgSend(id _self, Class _cls, SEL _cmd, uintptr_t lr) {
    _lastIdx = _length;
    buffer[_lastIdx] = '@';
    ......
}

static inline void pop_msgSend(id _self, SEL _cmd, uintptr_t lr) {
    ......
    buffer[_lastIdx] = '\0';
    _length = _lastIdx;
    size_t idx = _lastIdx - 1;
    
    while (idx >= 0) {
        if (buffer[idx] == '@') {
            _lastIdx = idx;
            break;
        }
        idx--;
    }
}

清空日志

由于msgSend的调用非常频繁，这种监控方案并不适合长时间启动，因此需要在某个时机关闭监控。由于正常的崩溃监控启动时也可能会存在crash，监听becomeActive通知来关闭功能是最合适的选择，因为此时已经过了launch启动崩溃监控工具的阶段，可以保证该工具本身是正常使用的：

[[NSNotificationCenter defaultCenter] addObserver: self selector: @selector(closeMsgSendObserve) name: UIApplicationDidBecomeActiveNotification object: nil];

- (void)closeMsgSendObserve {
    close(fileDescriptor);
    munmap(buffer, MB * 4);
    [[NSFileManager defaultManager] removeItemAtPath: _logPath error: nil];
}

回滚

当需要回滚时，说明已经发生了启动crash，此时根据日志内容，也有不同的处理方式：

日志文件是空文件

这种情况是最危险的情况，如果日志文件为空，说明文件已经建立，但是还没有产生任何方法调用。很有可能在fishhook的处理过程中存在crash，此时应该直接关闭监控方案，即便不是它的原因，并且快速增发版本
日志文件不为空

如果日志文件不为空，说明成功的监控到了crash，此时应该同步上传日志文件，快速反馈到业务方及时止损。首先止损手段都应该采用同步的方式，保证应用能够继续运行，根据情况不同，止损的回滚方式包括以下：
1. 如果crash发生在并不干扰正常业务执行的功能组件中，可以通过A/B线上开关关闭对应的功能，前提是功能组件使用开关控制
2. 崩溃处代码已经干扰正常业务执行，但是错误代码短，可以尝试通过服务器下发patch包动态修复错误代码，但是patch包要提防引入其他问题
3. 在A/B Test和patch包都无法解决问题的情况下，假如项目采用了合理的组件化设计，通过路由转发来使用h5完成应用的正常运行
4. 缺少动态修复的手段且crash不干扰正常业务执行，考虑停止一切插件、辅助组件运行
5. 缺少动态修复的手段，包括1, 2, 3的方案。可考虑通过第三方越狱市场提供逆向包，提示用户下载安装
6. 缺少动态修复的手段，包括1, 2, 3的方案。增发版本快速止损，使用Test Flight分批次快速让用户恢复使用

最后编辑于：2018.10.26 15:07:21

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,013评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,205评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,370评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,168评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,153评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,954评论 1赞 283
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,271评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,916评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,382评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,877评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,989评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,624评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,209评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,199评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,418评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,401评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,700评论 2赞 345