信数金服:如何“谨慎”使用“数据驱动”的风控模型- 数据篇

         人工智能时代来临,2017年“数据驱动”在整个信贷生态圈热度陡增,无论是金融机构、助贷机构、征信机构、大数据厂商等,无不在各大论坛、峰会、沙龙、融资中宣传各自“数据驱动”的理念。而银监会的121号文则给大大小小的机构泼了一盆冷水,“谨慎”使用“数据驱动”的风控模型,字字珠玑。小编认为,监管层的意图无需过度解读,但无疑监管层已深刻洞察行业鱼龙混杂,充斥着以“数据驱动”为名、实以高利率覆盖高坏账的玩家。小编也在与各大信贷机构的风控从业人员、风控解决方案提供商的交流过程中,发现对“数据驱动”理念一知半解的大有人在,更别谈“谨慎”使用了。小编总结认为至少存在以下误区:

[if !supportLists]Ø  [endif]对接了外部征信数据就认为是“数据驱动”或者是“大数据风控”

[if !supportLists]Ø  [endif]过度依赖大厂或权威资源,例如芝麻分、人行征信等等,缺乏自主风控能力

[if !supportLists]Ø  [endif]算法至上,认为风控模型解决一切,KS值多高、坏账率控制的多低,云云

人工智能的发展离不开数据,作为未来消费金融行业的重要着力点,如何正确搭建“数据驱动”的风控模型,并“谨慎”使用呢?

首先谈理念,这里需要将讨论的范围从狭义的风控模型扩展到风控体系,限于篇幅,仅介绍小额消费信贷的风控审核场景,应对欺诈风险及信用风险,不包括操作风险、流动性风险及系统性风险。大额度的消费信贷或小微企业融资,以目前的征信数据条件人工参与风控是必不可少的,此处不再赘述。数据驱动(风控)的关键理念包括:

[if !supportLists]ü  [endif]理解你的客户,不同的客户群体、消费场景、产品设计所面临的风险点是不同的,没有一套风控体系(风控模型)可以包打天下;

[if !supportLists]ü  [endif]数据为先,有用的数据、高质量的数据是成功的关键,如同没有上好的食材,给个米其林三星大厨也没用;

[if !supportLists]ü  [endif]风控体系搭建非一日之功,数据驱动也非一针见效的灵丹妙药,需要不断的迭代、优化,小步快跑,早期建议先进行小范围、短周期试验,除非公司不在乎钱;

[if !supportLists]ü  [endif]风控的目的不是杜绝坏账,而是基于盈利的预期,平衡风险与收益,取得利润最大化;

[if !supportLists]ü  [endif]紧盯你的数据表现,切勿盲目乐观,新的风险往往从未知之处悄然而至,如果你的风控体系能越快识别、应对、抵御这些风险,遭受的损失就会越少。

铺垫了这么多,终于可以切入主题了。谨慎使用“数据驱动”的风控体系,需要“数据+ 决策+ 监控”的动态闭环。整个体系需要不断的演进,通过持续的模拟测试,A/B实验,不断发现新的规律、新的变量,使风控体系越来越健壮。

数据篇

风控数据包括了采集的原始数据与加工的衍生数据,原始数据包括产品采集的用户基本信息、设备指纹、消费场景相关的交易信息,以及外部征信数据;衍生数据是按照风控决策的需要,对原始数据加工后的变量。

数据的种类很多,用途也很多。设备指纹数据与反欺诈高度相关,多头借贷、失信被执行人等数据则与信用风险强相关,性别、年龄、地域、学历等则是信用风险的弱相关数据,通常组合在一起使用更有效。

在互联网爆炸的时代,XX盾,XX融,XX查,XX联等数据供应商铺天盖地,企业内部也有动辄成千甚至上万的数据标签,大家似乎都不缺数据。然而,数据多不代表数据有用,数据多不代表能够支撑高频、实时、复杂、多变的风控决策,错误的数据一定会得到错误的决策结果。因此,今天小编着重和大家聊聊数据质量管理,如何确保数据能用、有用。

数据质量管理,通常由以下5个关键步骤组成:质量问题探查,清洗规则定义,清洗方案测试及部署,实时数据清洗,数据质量监控。

数据剖析:解决问题之前,必须了解问题。要解决数据质量,首先要了解数据的现状,了解潜在的问题。举个栗子,假设我们拿到一批数据,其中有性别这个字段,我们想当然会觉得里面的值应该是“男”或“女”,但实际观察里面的值可能是“男”、“女”、“男性”、“女性”、“F”、“M”,“空”,等等;再比如,身份证的字段,有些是18位的,有些是15位的,也可能是12位的,仔细观察12位的数据,它是截取了前4位或后4位,中间用了*号做掩码;再比如,电话号码字段,观察其中的数据,有固话、手机、带区号的、不带区号的,区号分国家代码的,区号不分国家代码的,等等。可以想象,数据字段越多,剖析出的问题会非常多。我们有时把数据质量管理等同于数据清洗这个动作,实际上,数据剖析的重要性丝毫不亚于数据清洗的执行,没有足够的数据剖析,是无法制定完善的数据清洗方案的。

清洗规则定义:通过数据剖析,了解了数据的各项问题之后,就可以针对各数据项的特点,设计清洗的规则。清洗的方法有很多种,包括替换、映射、截取,等等。除了将数据清洗成干净有用的数据之外,通常还需要制定规则,将无法清洗的脏数据隔离起来。

清洗方案测试与部署:确定了清洗规则之后,部署之前应经过充分的模拟和测试,可以先用离线数据、历史数据进行批量清洗,检查清洗的效果。

实时数据清洗:清洗方案部署到线上系统后,可以自动清洗实时采集的数据,及时将脏数据隔离起来。

数据质量实时监控:数据清洗不是一劳永逸的,一切都在变化之中。是不是出现了新型的脏数据?清洗程序有没有正常运行?数据源是否出现了质量事故?数据源是否断了?能不能自动切换主备线或采取其他的备用机制?一句话,数据质量实时监控。

好了,数据篇的主要内容今天就介绍到这里,近期还会继续推出:如何“谨慎”使用“数据驱动”的风控模型(二)-- 决策篇,向大家介绍完整的风控决策体系,敬请期待。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,165评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,503评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,295评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,589评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,439评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,342评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,749评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,397评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,700评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,740评论 2 313
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,523评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,364评论 3 314
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,755评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,024评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,297评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,721评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,918评论 2 336

推荐阅读更多精彩内容