初涉数据产品有一段时间,最近在工作讨论中突然有了些许感悟,总结一下。恰逢AlphaGo第二次正式参与公开围棋赛,人机战、人机配对战、团体战进行的高潮迭起。今天所写虽与人工智能无关,不过毕竟AlphaGo总体而言也算是在用数据做决策(强行蹭热点)。
人类应用数据分析的历史由来已久。其中,一类典型就是基于对历史数据的分析来评估未来并指导决策。这基本可看做归纳推理,不保真,所以有风险。由于我们只探讨企业生产活动中的数据分析,所以其应用必然是决策,像纯科学研究、演绎推理总结出基本是已知的结论,这些就不涉及了。
随着人类历史发展、技术进步,数据分析在指导决策上发挥出越来越大的价值和意义。在数据爆炸的当下,可利用的相关数据越来越多,数据中可被挖掘的信息越来越多,并且产生的指导价值越来越大。前些年“大数据”概念被炒的神乎其神,大家也确实已在诸多领域开展了大量研究、实践,开发出了各种新技术来提升数据价值。但是在决策时,这一切依然不能使其摆脱原理上的不保真风险。
在样本数据量巨大的基础上,由于大量“噪音”被掩盖、平滑,分析得出的宏观结论极具信服力,风险很低;但随着分析向低层次、细粒度下沉,可信度随之不断下降,风险逐步上升。不幸的是,总有很多基础工作需要在细粒度上着手。更何况很多时候,囿于底层架构,我们在源头上无法得到书本宣传中那样丰富、多维、干净、理想的数据。
为了得到结论,数据总会经过一些塑造加工。在此过程中由于一些涉及利益的业务特性,特殊的加工就可能放大数据的扭曲失真。由于各自领域的相对独特性,总会有各个领域的利益相关方提出“特权”的要求。原本一个整体的解决方案,在此过程中对不同领域的适应性增强,但也会不断碎片化,管理难度随之加大,到最后可能失控成“谁都不好解释的地步”。
当这一切在后台运行时,风险大体算是可控,问题最多就是增加一些经营成本。但当我们把数据拿到前台展示时,就有可能引发人们的质疑、指责甚至恐慌。舆论的威力具有毁灭性,与此同时,对它的恐惧也会鞭策我们。
我的理解是:这时我们只有两种选择,要么“温和”求稳使结论“中庸化”,这样会降低决策效率;要么“冷酷”的严格计算,这样会增大决策的风险。也许这就是数据决策方案设计的真谛。
所以制定数据决策方案的工作就是在把控风险的大小。至于如何把控,过一段时间我再有什么感悟了,咱们再谈不迟。
昨晚完成了本文草稿,今天看到如下两篇文章在不同领域、不同角度的探讨,基本也佐证了我的想法,感兴趣的朋友可做延伸阅读。
计算机的伟大与危险之处都在于,它可以把你的奇思妙想变成现实,并且影响他人。一个冲动的想法经过计算机编程后,可能会伤害成千上万的人。
Xtecher:《个性化推荐时代的阅读之殇:你置身于“回声室效应”却浑然不觉》
在精准的用户画像里,算法自动过滤了异样的声音,同时也杜绝了惊喜的可能。
或许,真正的自由是建立在正反博弈的信息和广泛的选择之上。当技术能轻易让人自绝于他人的意见之时,对技术的依赖也或许将成为通往自由之路的阻碍。