为什么“数据可以预测未来”仍然是一个有待商榷的命题

from adobe sitecatalyst官博

最近关注的课题是,在同质化很高的类目,同竞争对手的价格差距,和转化率之间的影响。

上图是adobe sitecatalyst官博的一个虚拟例子,描述了在“价格比竞争对手贵50”的情况下,各个利润下的查询量,订单,和抽象简化的转化率(订单/查询量)。

这个报表的数据源,每一项都有很多坑,比如利润的统计口径,价格差的误差容忍度,查询量的定义和各种渠道平台兼容,订单和查询量如何多对多匹配,但是本文并不是探讨这个“形而下”的如何操作的话题,如果有兴趣的话可以公告号回复给我,有需求的话,再写一篇给干活的参考。


本文想讨论的是“形而上”的问题,即这个报表的实际指导意义。


还是从这个例子来说。价格差是由对方价格决定的,利润是由成本变化影响的,查询量是相对稳定的季节需求影响的,订单转化是这一切的综合影响结果。

不难看出,成本、查询、销售结果是“比较确定”的部分,而对方价格是“不确定”的部分,因为季节性多少还是有规律的,而竞争对手是根据对方的一套策略来应变的。

这里我们引入性能优化里的“冷热”概念,当一个订单刚刚创建时,修改、取消的数据读写需求很频繁,随着下单时间变久,很快会变成只有“查看”这一个需求,也就是从“热”变“冷”,根据数据得到分界点,进而分开处理,只要分开处理消耗的资源,比区分冷热节省下来的资源少,就是有效的优化。

这是性能优化的基本思想,某种程度上DBA可能比行销经理或者产品运营经理更懂客户行为,只不过后者比较喜欢写博客宣扬而已。

不难看出,较为确定的部分是比较“冷”的,而不确定性很强的,有博弈的部分是比较“热”的,往往最后业务结果是否和预测一致,就在于对“热”的部分的理解和预处理。


这里又可以写另一篇抓取和反抓取的文章,不过本文想说的是一个“跳”的预处理概念。


下过一点点围棋(棋魂的水平就够了)的读者可能知道,如果一直紧贴着对手走,会发现永远追不上,反过来如果隔空跳几步,乍一看没有直接拦住,但是走下去会发现,隔空跳的控制领域更大。初学围棋是背诵定势的方式,对于高手来说完全可以自创。由于隔空跳不仅看起来玄妙,而且有浩瀚无边的自创空间,自然而然就成为大部分人认为“计算机下不赢人类“的根据。然而现代大数据的水平显然已经克服了这个问题,至少在围棋领域。

再举一个对战游戏的例子,当年还是星际校队候补的时候,曾经有一个体会,“当某个时间点无论怎么打也打不过的时候,应该暂时退一下”,仅仅这个理念就可以让水平上去一大截,从每一次的事后战报分析可以看到,如果发生了“某个时间点对方完全压制你”,意味着对方“放弃了什么”,这时候暂退一下,就扩大了对方的损失,而加强了自身的全局优势,这就是全局概率思想的雏形。

历史上的例子更多,抗日战争就是这样拖赢的,不管是主席提的也好,委员长提的也罢,持久战的策略在中国这样大的棋盘上,远比决战明智。另一个例子是朝鲜战争,当美军在正面遭遇中,无论如何打不过志愿军的时候,将持续战斗时间延长,扩大志愿军补给军需的劣势以后,所有数据指标都开始往好的方向发展,李奇微实际上只是从紧贴变成先拖几天再打,全局概率变化之大,直接导致朝鲜没有和越南那样统一。

回到主题,假设我们用adobe的这套方案,监控价格差距、成本、需求和转化,我们可能可以解释过去一段时间发生了什么,然而这并没有什么用,笔者就曾经这样回头解释过很多个项目为什么失败。对于实际在进行的项目来说,必须要能切实指导出“如何得到客户和市场份额”,才有现实意义。

本文想阐述的是这样一个理念,首先基于比较稳定可控的数据,建立一个冷数据的基础,然后对于处于博弈状态激烈变化的热数据,以能够穷举的所有假设去计算概率,完全不猜对方的策略,而是和alphago一样,始终能得到一个整体概率相对较大的行动指南。

最后的结果,在围棋上的体现,可能是看似没有道理的“跳”,或者是星际里面一个毫无道理的集结点位置变化,因为并不是直接压制的思想,而是控制整体概率,压制的是“可能性”。

孙子兵法有很大的篇幅说如何用间谍来干扰对方的决策,对于天生自带大数据能力的名将来说,他们掌控了本文开头那些不确定性的数据,也就掌控了双方的决策依据,从而可以间接“指挥”对方或对方的领导,达到以少胜多的结果。历史的长河里,比以少胜多更经常发生的,是名将输给平庸的对手,例如汉尼拔,或小说里的诸葛亮,无非是遇到了根本无视竞争对手在做什么,而只是采取概率较高的稳妥决策的对手,这种情况下资源的优劣是决定性的。


最后按语文课的要求,是必须要点题的


大家也看到了,alpha go打败李世石也只是最近的事情,下一步alpha go打算用星际争霸来试验(所以本文的例子也不是随便举的),也就是说,真正结合到现实生活,考虑了包容复杂博弈的整体概率的大数据,也才刚刚露出曙光。

仅仅就目前来说,常见的“大数据”玩法大致是把上图的所有指标写成向量,计算大量向量的夹角余弦来评估相似关联的概率,也就是仅仅达到了格式化搜索推荐的水平,和下围棋的算法相比,只达到了形而下的水平,并没有解决形而上的问题(也就是预设问题)。因此说,“数据可以预测未来”在商业领域,仍然是一个有待商榷的命题。

谢谢阅读。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容