防止坠入“大数据陷阱”，除了技术还需要什么？

面对互联网金融大潮，在兴奋激动之余，我们还需要一种相对冷静平和的心态。如果我们真的要搞金融大数据开发，真的要靠有关数据来办互联网金融，那确实就要认真思考一下自己所谓拥有的“大数据”真的足够大了吗？足够长了吗？

当今，互联网化正带动着许多行业、产业的组织变革和商业变革。在这一历史性的进程中，互联网技术的迅速发展也给金融领域的创新带来了巨大活力，显著提升了金融服务的水平。首先，我在大数据巴士中看到有统计从银行来说，现在银行已普遍通过互联网渠道开办各类业务，银行服务的成本有了下降（电子银行每笔交易成本大约只有银行柜台每笔交易成本的五分之一到六分之一）；银行传统信贷的模式有了改变（例如工商银行(601398,股吧)无人工参与的全流程在线的网络贷款已超过其网络融资的20%）；银行业务处理能力尤其是支付结算的能力和效率都有了提高（例如工商银行现在每秒钟业务交易量峰值已超过8700笔，在去年一年的电子银行交易已占全部交易的88%，电子银行交易金额达到了456万亿元，所有的异地支付早已实现实时完成。）；各家银行的服务模式都已越来越多地、越来越自然地融入商业场景之中，一个覆盖和贯通金融服务、电子商务、社交生活的互联网银行架构正在不断形成和完善。其次，这些年来，各类互联网企业从事金融业务的也越来越多，互联网金融已从最初的电子商务、第三方支付等更多进入了资金募集、理财和借贷领域。如果说Paypal、ApplePay和支付宝等，是让小额支付更便捷，那么P2P、众筹包括余额宝等则是对金融资源配置方式的一种有意义的探索，它给不少人提供了一种新的投资渠道，也满足了一些人筹集资金的需求。近来，一些人又已经开始把更多注意力放到了区块链技术，不少人正在争先恐后地进行基于区块链的支付和记录技术等方面的研究和开发。

这一切的结果在大数据巴士中的统计都是显得那么的令人振奋，令人欣喜。但我认为在看到互联网金融快速发展所带来的种种积极变化的时候，在继续推进金融创新的过程中，似乎也应该注意两个问题，一、金融创新的全部内容是不是金融的互联网化；二、是否应该避免陷入技术至上、唯数据论的误区。第一点比较容易理解，答案也应该是明确的。关于第二点想必看法不会完全一致。我想就此谈谈一己浅见。这可以从北京大学国家发展研究院沈艳教授最近的一篇文章说起。

沈艳教授的文章题目是《大数据分析的光荣与陷阱——从谷歌流感趋势谈起》。她在文章中讲了一个故事，那就是谷歌公司在2008年11月启动了一个“谷歌流感趋势”（GoogleFluTrends，GFT）项目，这个项目曾被许多人认为是大数据分析优势的一个证明。这个项目的团队曾宣布他们通过数十亿搜索中45个可能涉及流感关键词的分析，就能够比美国疾控中心提前预报流感的发病率，从而使人们可以有充足的时间提前采取预防措施以避免患上流感。倘若真能如此，这个成果无疑具有重要的社会意义和经济价值。可惜的是2014年，美国《科学》杂志的有关文献报道了GFT在2009年没有能预测到有关流感的爆发，在2011年8月到2013年8月间的108周里，有100周预告不准（预测率是实际报告值的1.5倍多）。沈艳诘问道，为什么传说中充满荣光的大数据分析会出现如此大的系统性误差呢？她认为如果在数据分析中只关心相关关系而不注意因果关系是不行的，必须避免模型对数据值作出“过度拟合”，她还指出尤需注意不能以为大数据可以完全替代小数据，她呼吁要防止坠入“大数据陷阱”，力戒“大数据自大”。我十分赞同沈艳的观点。沈教授所指出的问题正是若干年来我们在推进互联网金融发展中所一直十分注意和努力想解决的问题。

撇开银行在产品研发、客户营销、员工及机构管理等方面的数据应用问题暂且不谈，就说银行最常见也最重视的风险管理，多年来许多银行尤其是一些大中型银行都在如何利用数据技术提升风险管控能力方面进行了很多的探索，做出了不懈的努力。例如，工商银行在估算客户的违约概率（PD）、违约损失率（LGD）的时候，十分注意把数据长度作为风险参数量化过程中的一个重要因素，坚持要求数据观察期起码必须涵盖一个完整的经济周期，以努力避免简单地以昨天的数据来说明今天和预测明天。现在工商银行非零售业务和零售业务的客户违约率、损失率数据积累长度均已超过12年。同时包括工商银行在内的不少银行还建立起了全行数据质量的管理标准和平台，不断进行内部评级的复核验证，以尽可能减少失真数据的干扰和影响。为了能够对各种风险进行量化，在信用风险管理方面仅工行就开发了34个法人客户评级模型，实现了对所有法人客户违约概率（PD）的计量，开发了175个信贷产品的3类债项评级模型，实现了对违约损失率（LGD）的计量。对零售业务，工行还开发了75个信用评分模型，覆盖了个人客户准入、账户信贷审批和业务管理的完整业务生命周期。在面对市场风险（因市场价格例如利率、汇率、债券股票价格、商品价格的不利变动，而使商业银行表内和表外业务发生损失的风险）的防控方面，我们制定了16个办法，开发了17个定价估值模型来进行风险价值（VaR）和压力风险价值（SVaR）的计量，并且在实践过程中每日实施返回检验，把模型计算所得的风险价值与发生的真实损益进行比较，以检验模型、方法的准确性和可靠性。在防控操作风险（主要是指由不完善或有问题的内部程序、员工行为和信息科技系统，以及外部事件所造成的风险）方面，工行开发了操作风险损失事件管理系统，分别用于对操作风险高频低损和低频高损部分的计量。

为了达到上述的这种数据采集、挖掘和应用水平，仅为积累有关数据、开发这些风险管控模型，工商银行就先后花了将近15年时间，投入了巨大的人力和财力。尽管目前这一套风险识别和计量的方法、模型已经按照国际金融稳定理事会的有关标准，经过监管部门组织的多轮评估获得通过，认定为合格，但坦率地说，我们从来也没有认为这一切已经是完美无缺的了。面对不断变化的社会经济环境，随着银行业务日新月异的发展，在数据的管理利用方面确实还有许多问题需要解决，前面的路还很长。这也正是工商银行近年来又推出了eICBC新发展战略的一个重要原因。

我之所以不惜篇幅地介绍这些情况，主要想说的就是许多事确实不像想象的那么简单。面对互联网金融大潮，在兴奋激动之余，我们还需要一种相对冷静平和的心态。如果我们真的要搞金融大数据开发，真的要靠有关数据来办互联网金融，那确实就要认真思考一下自己所谓拥有的“大数据”真的足够大了吗？足够长了吗？

自己拥有的数据中的信噪比问题有效解决了吗？自己拥有的数据分析模型如果对样本内的数据分析还算准确的话，那它对样本外的预测结果也能一样有效吗？自己所拥有的数据处理模型是否完全建立在一种假定之上了，那就是以为人们的社交行为数据、那些非结构化数据都是真实的？坦率地说，我始终认为只要一些数据生成者知晓自己的行为数据可以影响自己的利益（例如可以获得信誉、信用积分，可以获得授信融资等），那对这部分数据的可靠性就有质疑的理由。这也许就是人文科学领域的“测不准原理”。现在各种花样百出的水军现象已经一再提示我们，真是“不能天真地认为数据使用者和数据生成机构都是无意识生产大数据的”（沈艳，2015）。

上述这些还没有涉及诸如homes系统、高频交易等技术在这一轮股市风波中的作用究竟应该如何认定的问题。尽管对此还可能有这样那样的看法，但可以确定的是，在某些条件下，所谓的技术中性在面对市场时是完全可能发生变异的。

总之，我认为金融的创新、互联网金融的发展，除了技术，还需要一系列的条件支撑，包括营造一种良好的文化氛围。在眼花缭乱之中，要力戒浮躁，脚踏实地。互联网技术是时代进步的标志，是现代文明的产物，它与那些江湖气其实是不搭的。诸如“流量为王，就是要靠烧钱来吸引客户”，“互联网就是财富重分的过程，就是赢者通吃的游戏”，“羊毛出在猪身上，猴数钱，牛买单”等说法，如果仅是开开玩笑，说说段子，那也未尝不可，但作为一个要对投资者负责、对债权人负责、对债务人负责、对市场稳定负责的金融从业者来说，如果把这真的当成了自己的经营理念，那是万万不可的。

最后编辑于：2017.12.04 01:28:28

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,362评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,330评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,247评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,560评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,580评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,569评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,929评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,587评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,840评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,596评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,678评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,366评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,945评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,929评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,165评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,271评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,403评论 2赞 342

防止坠入“大数据陷阱”，除了技术还需要什么？

推荐阅读更多精彩内容