风控模型的冷启动问题&迁移学习

冷启动是指在没有或只有很少量数据的情况下,从0到1建立业务模型的过程。

如新开了某个消费分期的场景、在某个国家新发展了类似于国内的业务,源域样本和目标域样本分布不同,且目标域样本量又不足,可采用迁移学习、异常检测、专家规则经验等技术,本文重点介绍、讨论迁移学习。

一、迁移学习的概念

下图是比较全面、好理解的总结,有兴趣的朋友可以查看这篇论文:A Survey on Transfer Learning。(https://www.cse.ust.hk/~qyang/Docs/2009/tkde_transfer_learning.pdf)、A Survey on Deep Transfer Learning(https://arxiv.org/pdf/1808.01974v1.pdf)。

论文中同时给出数学定义如下:

Given a source domain D_{S} =\left\{ X_{S}, f_{S}(X) \right\} and learning task T_{S} ,a target domain D_{T} =\left\{ X_{T}, f_{T}(X) \right\} and learning task T_{T} , transfer learning aims to help imporve the learning of the target predictive function f_{T} (\cdot ) in D_{T} using the knowledge in D_{S} and T_{S} ,where D_{S} \neq  D_{T} or T_{S} \neq  T_{T}.

迁移学习在深度学习中有着更好的应用(归纳迁移),如Feature-representation -transfer、Parameter-transfer,基本原理为复用已训练的网络结构或参数,利用训练好的泛化特征、节省时间和计算力,以一种有利的方式缩小可能模型的搜索范围,主要应用领域在于CV(NLP取决于embedding后的表达,未必会有效果提升)。

在无监督学习,应用较少,个人阅读一些资料后 ,理解主要是提供业务的理解和洞察。

在风控领域,主要是基于实例的迁移学习(Instance-transfer、域适应domain adaptation),本质上就是带来样本上的补充,将两个不同分布的训练集放在一起训练。主要用到的算法包括:TrAdaBoost(Transfer AdaBoost,对源域样本进行加权)、TCA思想的方法(寻找一个低维子空间,使得源域和目标域的数据样本映射到该空间后服从相同或近似的分布,如JDA、DTELM算法)。

当目标域没有标签或仅有少量标签时,可以采用EM的思想进行,先使用源域训练的打上伪标签,迁移优化模型后重新打标签,迭代优化。

A Survey on Deep Transfer Learning提到通过GAN来进行特征的迁移筛选,也可考虑在模型设计的时候,应用于非神经网络结构,比如梯度下降中,我们每一次迭代的时候加入一个相反方向的任务,通过反复的迭代一样可以收敛到某一个值。

迭代时的目标函数:最小化label predictor分类器的loss函数、最大化domain classifier分类器的loss函数(现有模型新增的另一个目标,励它混淆这两个领域,确保两个域的表征相似性的一种方法)。与规则损失的差异在于,从损耗流向网络其余部分的梯度是相反的,这意味着该模型在学习使其最小化原始目标的表征,而不允许它区分两个域,而后者有助于知识迁移。

二、跨场景迁移案例

在进行迁移学习前,一个重要的问题就是:给定一个目标域,如何选择合适的源领域?如果选择的源域与目标域相似性过小,则很可能造成负迁移。 有两个解决方案,1、对不同数据集进行相似性的度量,2、同一个目标域,不同的源域,产生的迁移效果千差万别,总能找到一些领域,迁移效果比不迁移好。

三个数据集,源域样本traina,目标域样本trains,时间外验证样本集val,分三步验证迁移学习模型效果。

1、trains训练,val验证,结果如下,KS相差超过10%,远高于行业要求的5%,且ROC曲线不稳定,意味着模型的泛化能力较差。

2、trains+traina训练(直接合并),val验证,结果如下,训练集ROC波动非常剧烈。

3、trains+traina训练(TrAdaBoost),val验证,结果如下,KS差值小于5%,且ROC曲线的趋势较为平缓(说明泛化能力更强)。

三、关于专家意见

冷启动还是要以专家意见和规则为主,模型为辅,The Wisdom of the Few这篇论文专门对专家意见和模型效果进行了对比,有兴趣可以看看。

初始化时的人工(标签和业务知识的输入)或对模型效果的人工检视,必不可少

半监督学习的许多经验和见解同样适用于迁移学习;在迁移学习中,我们主要关心我们的目标任务,在多任务学习中,目标是在所有任务上都表现良好;将迁移学习推到极限,仅仅从少数几个甚至零个样本中学习,我们就能分别得到少量、一次和零次的学习(Zero-shot learning)。

附,参考资料

1、智能风控,梅子行著。

2、反欺诈冷启动(方法篇),https://zhuanlan.zhihu.com/p/78687192

3、迁移学习简明手册,王晋东著。

4、基于迁移学习(Transfer learning)的反欺诈(二),https://zhuanlan.zhihu.com/p/35454479

5、基于多模型融合的迁移信用评分框架,https://zhuanlan.zhihu.com/p/84646070

6、迁移学习在金融风控领域的应用,https://zhuanlan.zhihu.com/p/72331942

7、基于深度迁移学习进行时间序列分类,https://www.jiqizhixin.com/articles/2018-11-15-17

8、【一文读懂】机器学习最新主战场迁移学习,从原理、方法到应用,https://zhuanlan.zhihu.com/p/25979886

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,602评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,442评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,878评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,306评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,330评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,071评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,382评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,006评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,512评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,965评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,094评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,732评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,283评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,286评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,512评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,536评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,828评论 2 345