一个反作弊风控团队,往往需要配备一定人力的审核团队,主要的作用有两个
1)对已发现的样本进行人工确认和样本标记,从而用于各种监督学习模型的训练
2)对疑似作弊但无法机器自动封禁的case进行人工确认和处理
为了保证业务场景的作弊率低于一定标准,需要使用策略+人工双规方式才能比较好的满足要求,尤其人力审核,这个即便是再牛的大厂如Facebook也没法免俗,具体参考:
https://zhuanlan.zhihu.com/p/130489814?utm_source=wechat_session&utm_medium=social&utm_oi=818144965241757696&from=timeline&isappinstalled=0&wechatShare=1&s_s_i=sshhET7OXug%2FXLbfWHGruqk11mvC8BZrJ0TWDlTPjsA%3D&s_r=0
具体的风控流程大致有几个步骤
1)首先需要对作弊有比较明确的定义,比如色情问题,就需要界定其他类似的如低俗直播类,模特泳装类算不算色情问题,等
2)熟悉业务,反作弊业务是服务业务的,是业务和数据分析的结合,所以一定要熟悉业务场景,这是也分析数据所必须的。
2)对问题有了明确定义以及熟悉业务场景之后,就需要对线上的作弊问题进行分析,在这个过程中还需要大量的标注数据,因为目前主要的风控策略和机器学习算法大多是有监督学习,这个过程中可以对整体的作弊问题类型有大致的了解,也便于分析人员更好的总结有哪些特征可能会比较有用,从而用户后续特征工程的建设。当然绝大部分的标准工作还是需要审核标注团队来完成,量级可能从几千到几十万甚至上百万级别。这也就是审核人力的第一个重要作用(标注准确率是一个非常重要的指标,一次错误的标注都可能对策略造成巨大影响)
3)通过各场景的特征工程建设拉取需要的数据并整合出尽量多的特征,当然这里要权衡获取数据的难度和收益。
以下部分可以参考下图:
4)对于线上场景,首先需要一个高召回策略进行覆盖,保证线上遗漏的作弊问题在一个可接受的范围(这个要看对具体作弊类型的容忍度)。当然这个策略的精确率要尽可能高这样才好节省审核人力。(我们业务的高召回场景召回率一般在80%+,精确率一般在30%-60%,看具体召回率的要求)
5)高召回策略召回的数据,再经过高精确策略进行自动化处理(为了降低审核人力成本),由于这个高精确策略是自动处理的,因此对精确率(precision)要求比较高,具体也要看业务的需求,我们业务一般要求99.9%+,再高的话很可能出现过拟合。
6)对于高召回命中但是高精确没有命中的部分,就需要审核人力进行覆盖,从而保证相关问题得到及时解决,同时也提供更多的无法确定的正样本数据集。