1、为什么要用大数据来反欺诈?
近些年来互联网金融蓬勃发展,特别是P2P的兴起,颠覆了传统的银行贷款模式,给大众带来快速便捷的金融服务;在P2P行业中,借款端的风险是P2P公司面临的主要风险,而借款端的风控水平可以说决定了一家P2P公司的核心竞争力。
借款端风险的一个主要来源是欺诈风险,传统的反欺诈手段主要依赖于信息的人工审核,而身份证、手机号码、银行流水等材料的伪造成本非常低,各类信贷服务机构均不得不投入大量的人力用于核实信息主体的身份及其提供材料的真实性;在这种形式下大数据反欺诈成为了P2P平台提高风险控制水平的新思路。
大数据反欺诈,即是通过对数据的采集和分析,找出欺诈者的蛛丝马迹,挖掘其数据的矛盾点和可疑点,识别和预防欺诈事件的发生。大数据收集了大量异构、多样化的信息,包括可交叉验证信息主体所提供的信息以及第三方信息来源的真实性,尤其是对于第三方信息来源,信息主体想要进行长时间、全方位的伪造,非常困难,成本较高,并且事实上经常不可行,因此大数据具有较强的反欺诈能力。
2、面对的挑战
大数据反欺诈技术又可以分解为两个子问题,第一个问题是在用户的授权下如何收集用户的相关数据,包括去哪里收集和收集哪些数据,为此我们对接了大量的第三方数据提供商的系统,还在用户的授权下,利用网络爬虫抓取公开的互联网数据,从而不断完善和丰富数据集,增加覆盖维度;第二个问题是如何整合和利用已收集的数据解决反欺诈问题,由于数据来源多,数据异构碎片化,结构(structure)、半结构(semi-structure)和无结构(adhoc)数据共存,并且规模庞大增长迅速,因此这一过程的挑战在于如何整合异构的数据源,如何有效的利用已有的数据进行交叉验证。
为了应对这个挑战,我们利用图(Graph)的数据结构,将不同渠道的碎片化、异构数据整合成为机器可以理解的知识,构建了知识图谱(Knowledge Graph),借助规则引擎(Rule Engine),实现了欺诈的识别与防御。
3、知识图谱的概念
知识图谱是一种基于图的数据结构,其目的是将真实世界所存在的实体,知识以及概念等描述成机器可以理解的数据结构,将数据转化为知识;图的节点(Point)是真实世界所存在实体,由一个全剧唯一的ID来标识和索引,每个实体可以带有若干不同的属性(Property),用来刻画实体的特性,而图的边(Edge)则用来描述两个实体的关系,例如is-a关系,表示一个实体是另一个实体的一种,或是has-a关系,表示一个实体具有另一个实体,这样的关系都是用来刻画实体之间的关联关系。知识图谱可以看作一个巨大的网络,是由数据绘制出来的一张知识图。
知识图谱最先由Google提出(http://googleblog.blogspot.sg/2012/05/introducing-knowledge-graph-things-not.html),用于提升搜索引擎质量。举一个简单的例子,当我们用Google搜索“刘德华的老婆”时,Google返回了朱丽倩的信息,说明Google是理解了搜索框中的内容才进行的搜索,而不是简单的字符串检索,这就是一个知识图谱的应用场景。
4、知识图谱在反欺诈场景的应用
在反欺诈场景中,知识图谱聚合各类数据源,逐步绘制出借款人的profile,从而针对性质的识别欺诈风险。以一个借款人举例,借款人可以有身份证号,手机号,学历等个人信息,属于个人的属性信息;而借款人可以有担保人或是亲属好友,借款人与担保人之间的关系(也就是边Edge)是被担保与担保的关系,借款人与其亲属好友之间的关系是父亲、母亲、同事、同学等关系;借款人也具有住址,银行流水,工作单位等信息。这些信息可以来自于多个渠道,例如可以由借款人自己填写,或是积累的历史数据,或是数据提供商提供,或是在互联网上获得,甚至通过推理得到,往往具有冗余性;信息通过图的形式连结,展示出了借款人的profile。
4.1、识别数据造假
当融合来自不同数据源的信息构成知识图谱时,有一些实体会同时属于两个互斥的类别(例如同时在两个不同的城市工作),或某个实体所对应的一个Property(同一个人的住址)对应多个值,这样就会出现不一致性,这个不一致性即可判定为潜在的可疑点。
通过这种不一致性检测,我们利用绘制出的知识图谱可以识别潜在的欺诈风险。在P2P行业,欺诈风险主要的骗术包括个人信息造假、工作单位虚假、代办包装、虚假联系人、组团骗贷等。以识别数据造假为例,利用知识图谱我们可以通过借款人的身份信息PII(Personal Identify Information),例如手机号或是身份证号,直接索引到个人的全部信息,并以此与借款人的填写信息进行不一致性检测;也可以通过借款人的其他信息进行推理出其相关信息进行验证,举一个例子,我们可以通过借款人的身份证号和姓名可以获得他的学历信息和年龄,通过学历信息和年龄可以推算出其工作年限,再根据其所在城市,行业,职位,结合互联网上的招聘网站数据推理出其薪水范围,进而验证他的收入水平;甚至可以通过不同借款人之间的同事关系,验证其工作单位的真假。
4.2、组团欺诈和代办包装
除了对数据造假进行验证外,由于图结构带来的天然关联检索的特点,知识图谱可以识别潜在的代办包装或是组团骗贷。我们利用征信公司提供的欺诈数据,拥有的代办包装公司数据,互联网公开欺诈黑名单,行业黑名单联盟等数据开发了大量的标签数据,对实体(包括公司和人)贴上标签,例如逾期,虚假手机号,代办包装或是组团骗贷等标签,当借款人进行申请贷款时,如果我们发现他和bad people/company/info具有较多的关联关系,那么这个人有很大的可能是欺诈,从而识别出风险。
与搜索引擎的场景不同,知识图谱在反欺诈场景中具有较低的应用门槛,数据量较少时也可以进行低程度的交叉验证,而随着数据量的积累和增多,知识图谱也会越来越完善,其反欺诈能力也会越来越强。我们建立了名为”Matrix”的大数据反欺诈系统,在借款人提交借款申请开始即介入整个风控流程,对接多个数据源以获取借款人的数据信息,在各个环节建立checkpoint,通过可配置的规则引擎在各个checkpoint执行预定的逻辑,识别和防御欺诈风险。
结语
这篇文章介绍了点融网在大数据反欺诈领域的尝试与实践,比较系统的介绍了知识图谱技术在反欺诈领域的应用。知识图谱的构建离不开数据的积累,也需要知识库、自然语言理解、机器学习和数据挖掘等多方面知识的融合;知识图谱使得机器能够理解现实世界的实体和关系,正如Google所说,a “graph”—that understands real-world entities and their relationships to one another: things, not strings.
本文作者:程书欣(点融黑帮),现任点融网研发工程师,关注大数据风控技术,主导研发点融网反欺诈系统Matrix。