在互联网和银行的信贷领域主要有两大类的风险需要进行防控,分别是信用风险和欺诈风险,其中:
信用风险:指的是借款人的还款能力以及还款意愿所带来的风险,通常受借款人的经济能力、负债情况和生活状态变化的影响,一般不是由借款人自发产生的风险,大多数收外部或其他因素影响。
欺诈风险:指的是借款人出于不正当目的进行借款,且通常没有主观上的还款意愿,多数借款人是抱着骗贷的目的进行借款,且往往呈现出团伙骗贷的特征,因此对于金融机构而言,这类欺诈类风险带来的危害往往十分巨大。
在互联网金融信贷风控领域,通过搭建模型利用自身的历史数据和外部的相关数据,挖掘出反欺诈规则或者欺诈评分是非常重要且十分有效的手段。与传统人工信审相比,基于机器学习的信贷风控模型可以高效且准确地处理信贷申请,降低信审压力地同时,将风险控制在一个合适地范围内。下面以信贷风控中最常见的反欺诈场景为例,简单地介绍一下工业界中通用的信贷反欺诈建模流程,如下图所示。
信贷反欺诈领域一个完整的建模流程大体如上图所示,其中标黄的是关键且核心的内容。下面我们对流程中的每个模块进行简单的介绍。
1.问题抽象
将欺诈检测问题抽象成数学问题(回归或者分类)或者机器学习任务(监督学习、无监督学习或者是半监督学习),比如:
(1)欺诈分类,可以抽象成二分类或者多分类问题。
(2)新型欺诈识别,可以抽象成异常检测问题。
(3)欺诈团伙识别,可以抽象成聚类问题。
问题抽象完成后,我们就可以按照我们的目标,采集数据,建立模型了。
2.欺诈定义
信贷领域的欺诈在实际场景中的表现方式有很多,如果对信贷欺诈的类型进行划分,比较常见的有欺诈主体、利益得失等维度。其中,从欺诈主体方面分析,可分为第一方欺诈、第二方欺诈、第三方欺诈,其特点具体如下:
(1)第一方欺诈:欺诈主体为申请者本人,欺诈主体知情且分享收益;
(2)第二方欺诈:欺诈主体为企业内部员工;
(3)第三方欺诈:欺诈主体为盗用别人身份信息欺诈的人群,非客户非企业。
在训练一个反欺诈模型之前,我们得先定义好什么是欺诈,不然后续的工作都没有任何意义,欺诈定义在不同的领域和不同的公司由不同的欺诈定义标准。在信贷欺诈策略与模型开发的风控工作中,针对欺诈目标的定义,主要表现为采用内部数据、外部数据,或者联合多维数据来定义欺诈目标。这里列举几个互金领域比较有共识的几种欺诈定义方法:
(1)贷前申请信息:身份要素核验不一致、活体识别不通过、通讯录信息异常,单位及居住信息异常,网络及设备信息异常等;
(2)三方多头借贷:三方多头标签、多头欺诈名单、多头信用黑名单等;
(3)外部行为信息:运营商通讯信息、银联交易信息、电商网购信息等;
(4)贷后逾期信息:首逾超过T天、首逾不还款、首期失联、回访失踪等。
在实际的应用中,不同的场景下会将上述的几种方法进行组合,得到对应的欺诈定义。
3.数据准备
数据准备主要是对反欺诈建模中使用到的数据进行归集和整合,以为后期的建模提供数据准备,数据准备分为两个部分:数据获取和样本选取。
3.1数据获取
数据获取一般考虑数据从数据来源上说,一般分为内部数据和外部数据,其中内部数据值得是用户在当前平台上所有基本信息和行为信息的集合,外部数据指的是当前平台出去风控和反欺诈的目的,从外部数据服务平台采购的数据。两者大体范围如下:
内部数据:,用户基础数据,用户行为数据、埋点数据、账号数据、设备指纹、授信记录、还款记录、黑灰名单等。
外部数据:第三方风险分、三分黑会名单库数据、运营商数据、身份学历信息、社交关系、App操作行为、外部征信数据等。
数据来源也不是越多越好,出于法规和监管的需要以及平台自身运营成本的控制和后期效果的追踪和回溯,对数据来源可以从以下几个方面进行把控:
合法性:随着国家监管的日益完善,以及用户信息保护的逐步加强,平台获取用户数据的合法性日益重要,甚至能影响一个平台的生存。未经用户授权的数据不可采集,用户隐私数据需要加密,尽量不收集业务需求之外的数据等。
性价比:性价比也是数据准备时候必须要考虑的因素之一,优先准备性价比高的数据也是保证一个平台能够盈利的关键,性价比低的数据,无疑会提高客单价,有时候会导致得不偿失。
稳定性:数据稳定性指数据随着客群变化,逐渐变化。如果因为客群的变换会导致某些数据发生急剧变化,势必会导致模型稳定性差。
可回溯性:是指这些数据能否正确回溯用户的历史行为,可回溯性差的数据不利于后期模型上线阶段的效果评估和复盘。
3.2样本选取
反欺诈建模过程中用到的数据样本包括建模样本和时间外样本。其中,建模样本用于构建反欺诈模型,时间外样本用于验证模型以确保模型在对来自不同时间窗口的客户群体进行测试时的鲁棒性。样本选取通常需要满足以下原则:
代表性:首先不同的反欺诈场景针对的客群是不一样的,比如白领贷面向白领,小微贷面向小微企业主,因此不能使用不同客群的样本作为建模样本。
充分性:样本的数量必须满足一定要求,否则无法满足统计的显著性,一般如评分卡建模,要求正负样本数都不少于1000个,随着样本的增加,模型的效果会显著提升。
时效性:在样本数量充足的前提下,要求样本的观测期与实际的应用期越近越好。比如十年前的样本用来做今天的反欺诈模型,可能意义并不大。
4.特征提取
数据准备好之后,如何讲这些数据转换成特征进入到下一个阶段的建模中,是一个非常重要的环节。特征提取通过对原始数据进行转换和变形,从原始数据中提取和创造出对预测欺诈有帮助的变量,而这些变量被统称为特征。由于模型将直接使用特征,因此特征提取在很大程度上决定模型的预测能力。在反欺诈建模过程中常用的特征提取的方式有如下常用的几种:
时间切片:同一个指标在不同的时间切片下的表现,以某个用户在当前平台的申请次数为例,通过时间切片可以提取出一些不同时间切片的特征:过去24小时申请次数,过去三天申请次数,过去一个月申请次数,等等。
特征交叉:特征交叉是只对两个可能有关联的基础特征进行交叉,从而得到交叉后的特征:比如是否同时申请贷款产品A和贷款产品B,工作地在一线城市且收入低于平均收入,等等。
网络特征:网络特征值得是利用基础数据构建复杂关系网络,然后基于复杂关系网络进行特征提取,如一度联系人,二度联系人,以及是否数据同一个社团,当前所属社团规模等等。
特征提取主要是在当前基础数据的基础上,提取出可能对后续模型建模有用的新特征,至于提取出来的特征是否有效,建模阶段可以进行特征评估,然后筛选出有用的特征用于后续的建模。
5.模型搭建
在明确业务需求和特征提取好之后,就可以进入模型搭建的阶段了,模型搭建的阶段主要包括:特征筛选,模型建立,模型评估和模型调优。
5.1特征筛选
在特征提取中曾提到过,为了尽可能地利用数据的价值,需要基于现有的数据进行特征提取。但是在这些提取的特征中,并不是所有的特征都对欺诈建模有帮助,因此需要对这些特征进行筛选。为了达到这个目的,业内常用的特征挑选方法有WOE(Weight Of Evidence)和IV(Information Value)。具体如下:
WOE: WOE针对的是离散变量,也就是变量的取值是枚举类型。WOE将原始特征值转换为与欺诈相关的比例值,这个值越远离0表示变量相应的取值对欺诈预测的帮助越大。而针对连续变量,首先需要通过分箱将其转换为离散变量,然后再计算相应的WOE。
IV:IV值是定义在WOE的基础上,用于衡量该特征对被预测值的预测能力。理论上来讲,这个值越大说明相应特征的预测能力也就越强。但在建模的实践中,我们并不总是使用IV值大的特征来搭建模型,因为这会使模型变得不太稳定。比如模型IV值过高的变量,可以直接用于反欺诈策略,以达到高效和快速调整的目的。
5.2模型评估
由于欺诈模型大多数情况下是分类问题,因此可以使用的评估指标有AUC、查准查全以及K-S值。AUC和K-S值是信用评分模型常用的评估指标,它们是偏向于模型在整个数据集上面的表现,强调模型的整体效果和稳定性。但实际在反欺诈的场景,我们并不顶追求模型在整体数据集合上的表现,因为欺诈是个拒绝属性特别强的结果,代价往往较高,因此一般可以使用查准或者查全来评估模型。
6.上线及监控
在模型效果达到逾期之后,我们就将模型发布到生产环境,以承接线上的反欺诈服务。模型部署之前,需要进行的变量的和核对工作,其核心在于通过统计手段构造模型报告,继而对模型的效果进行评估。模型报告的构建方法如下:
(1)将测试样本的集合按照预估评分进行升序排列。
(2)将样本等频分割,并分布到若干各箱中。
(3)计算每一个分箱中的相应评估指标。常用的评估指标有:KS值,正负样本数,负样本占比,捕获率等等。
以上就是整体的反欺诈建模的全部环节,细节的东西都没有讲太清楚,后续如果有空,会针对部分环节进行详细介绍,OK!
信贷风控建模实战系列
信贷风控建模实战(一)——建模流程总览
信贷风控建模实战(二)——策略生成及规则挖掘
信贷风控建模实战(三)——评分卡建模之逻辑回归
信贷风控建模实战(四)——评分卡建模之XGBoost
信贷风控建模实战(五)——特征工程
信贷风控建模实战(六)——异常检测
信贷风控建模实战(七)——群组划分or聚类
信贷风控建模实战(八)——风控基础概念