<TPiTM>数据上云之二:数据上云=零售上网+人群包

10.

如何理解人群包?

第一,人群包是平台为了数据变现在个人隐私和商业应用之间平衡的产物。不管是阿里也好还是腾讯也罢,在人群包上都有「一次打包人群不得低于5000人」的规定,为的就是避免个人信息和个人隐私在使用中透出;

第二,人群包和「精准到人」并不冲突。人群包解决的是人群细分问题,也就是说要我的信息要触达什么样的一群人,我从数据上、算法上、策略上予以定义,利用平台的数据工具打包成一个黑箱;而「精准到人」指的则是在打包人群之后,利用机器对机器之间的黑箱机制,定位和精准推送到人群包中的每个个体,推送过程不可见;

第三,人群包中,人能影响的部分在于初始的人群定义,以及算法的设定等等。人群定义来自于对经验的抽离,以及准确而有效的数据挖掘,如果涉及商用,则需要更多的行业经验输入,根据商业常识提出算法逻辑,以及进行算法调优。

第四点,也是理解上最重要的一点,人群包首先是工程问题,其次是业务问题,最后才是数据问题。

以前在朋友圈发了一条吐槽:「偏激点说,如果没有工程能力,就别谈大数据了。」点赞的朋友不少,不过,对于大部分没有碰过数据的童鞋来说,恐怕很难理解这里的槽点在哪。

下面我就依据一年来投身大数据的经验,从我的角度聊聊这件事情。一家之言,不求正确,但求有所启发。

11.

先从对大数据的认知入手来聊聊对于big data的两种截然不同的误解。

第一种,矮化big data,把big data等同于survey data和census data,只关注数据质量好坏和分析方法是否合理。

第二种,神话big data,就是对于大数据存在不合理的想象,似乎大数据一出,什么问题都解决了。

如果简单粗暴地来跟之前个人观点做对照的话,第一种观点把big data视为数据问题,认为BI就可以解决;第二种观点把big data视为业务救星,却忽略了数据上所需要的条件,以及缺乏清晰的目标指向——我知道有机会,但不知道机会在哪;我知道有风险,但不知道风险在哪。

这两种误解本质上都仍然停留在数据分析的思维上,也即用数据分析来辅助(高层)决策,而并没有真正使用数据来驱动业务:

如果你自称是数据驱动,但每件事情都必须由一位分析师经手,那么,你就不是真正的数据驱动。

数据分析和数据驱动的gap在于,在科层制组织中,传统BI的目标在于支持决策层更好地决策,因此更重视数据本身的质量,更重视分析和洞察的精确性,而对于效率要求并不那么高,最终的成果需要浓缩成为PPT和PDF,由决策层根据报告进行决策,并向下传达命令;但是在扁平化的互联网公司,数据驱动的目标在于支持打仗中执行层的业务和决策,更重视的是决策效率,更重视的是普通员工是否能用数据进行自我决策,对于分析和洞察的精确性要求并不高,更在意的是分析、洞察环节都能用机器的方式完成,解放人去做人的事情,从而提高执行效率,更重视的是执行后的优化和迭代。

简单来说,对于传统BI,大数据只是分析和洞察的其中一个数据选项,但是对于大数据环境下的数据驱动,更重视的是「快速、规模和效率」前提下的数据工业化处理、数据挖掘以及使用者的自我决策。

这个gap,存在传统BI和大数据BI之间,也存在BI和业务之间,业务抱怨BI给的数据没有任何用途,BI抱怨业务没有给出明确的分析方向。但是,通常来说,业务和BI都会抱怨没有高质量数据和可靠的分析工具(躺枪)。

不管是把大数据视为业务问题还是数据问题,都忽略了数据存储、计算、消费过程中的工程难题——如何让每个员工都能够通过数据自我决策,如何让每个业务行为都能够通过数据自我检测,如何让数据驱动业务成为实践而不仅仅是挂在嘴边……所有这些问题,都需要通过计算机工程来解决,在平台上做数据产品,最缺的从来不是产品经理,而是各种工程师。

事实上,这就回到了题目中的第一句话:「(大数据)首先是工程问题」,如果不从这个角度来理解大数据,业务和BI永远处于一种互相打架的状态,而不是合作来推动大数据的产品化、商业化。

12.

把人群包以及背后的大数据视为工程问题,意味着在使用人群包之前,需要趟过诸多数据采集、存储、计算、消费背后的社会、技术、经济(也称SET效应)坑。

以平台为例,(以下6条引用自@才言 的总结)

1、从线下IDC到线上计算平台的gap(IOE带来的诸多坑);
2、计算平台常规作业到熟练使用大数据开发套件的gap(先搞懂BI吧);
3、从开发节点调度管理到熟悉使用数据产品服务使用的gap(人和物的数据不一样);
4、从拼凑数据产品服务到理解整套解决方案的应用场景的gap;
5、从解决方案确定到预算、合同和项目周期等商务环节的gap;
6、这里面还没有提到算法,走到建立在分布式集群上的算法平台还存在gap。

具体的就不一一解释了,反正碰到了实际的业务问题,自然会懂。

这些gap,首当其冲的就是工程落地的gap,不考虑是否能落地的大数据业务,就好像没有打地基的楼房,看着威武雄壮,实际上风一吹就倒,没有意义。

以数据收集为例,我们可能会碰到以下问题:

1.目标所需要的数据是否可收集
2.收集成本是否可以接受
3.不同数据源的数据是否可以打通
4.海量的数据存储问题如何解决?
5.数据架构如何设计?
……

其次,就是从产品到业务的gap。是否需要开发新的数据产品(模块),以及,需要什么样的产品(模块)组合,类似这样的问题,常常令人挠头。

以品牌建设为例,我们就至少会碰到以下实际的问题:

1.如何从行为数据(current behavior)推导出真实的消费欲望(desire behavior)?
2.如何从互联网的GMV KPI切换为Brand KPI?
3.如何从人群的Targeting(定向)推导出Insight(洞察)?
4.如何保证品牌所使用的人群洞察有效可用?
……

从产品到业务的gap,一句话来说就是「算法代替经验公式」的gap——哪些经验公式可以被算法代替,哪些暂时不能,还要从商业服务维度考虑有效的产品组合、业务进度、灰度管理以及企业数据的安全等等问题。

对于训练有数的分析师来说,这些或许都不是大问题,但是对于数据挖掘来说,或者更进一步说,对于数据产品的落地,都是大问题。

总的来说,为数据找到实际的应用场景,在今天,是比讨论大数据的数据质量和分析方法更有意义的事情;而大数据工程能力的缺乏,则会让以上讨论都毫无意义。

13.

回到人群包的讨论上来。

前文提到目前阻碍大数据规模化使用的两大基本问题:数据打通和数据质量,这两点在上一篇《数据上云之一》里面已经有过解释,这里说一说为什么理解人群包非常重要。

以前在其他文章里讲过一个基本观点:

电商1.0是零售上网,电商2.0是数据上云。(详见诎作《什么是大数据业务》一文)

分享一种最近一直在用的数据视角来分别解释这两者。

简单来说,就是以货为中心和以人为中心的区别:「零售上网」是基于货的id去mapping(匹配)所有的数据,不管是天猫、京东,还是顺丰、菜鸟,核心视角是货的供求关系;而「数据上云」是基于人的id去mapping所有的数据,核心视角是人有哪些需求,又是如何被满足的。

和货的数据相比,人的数据要更为海量和多元,也更难收集和处理。仅以投放举例,过去你只是想卖货,那么,阿里妈妈三千个标签就足够满足你的需求,但当今天你不只是想卖货,还想和消费者建立一些联系,并且想通过这种联系从激烈的竞争中脱颖而出,那么,阿里妈妈的数据标签就不够用了。后来御膳房一度成为投放的新宠,以及今天钻石展位(阿里的display广告产品)越来越成为商家曝光的首要选择,都是这种需求的表现。

当这种需求无法通过数据满足的时候,人们就只能转向媒体诞生后的「内容定向」来寻求和消费者的强联系,自媒体以及自媒体广告的火热,背后隐藏着的正是数据营销从「以货为中心」向「以人为中心」的转变。阿里巴巴大举旗帜进入内容营销、以及去年阿里妈妈在大会上宣布「去标签化」、阿里巴巴商家事业部发布客户运营平台,都是这个过程中最具有代表性的事件。

再举一个例子,我之前所参与的大数据策略产品,核心在于「每个人的价值观由其喜爱的事物所构成」,试图从人的One ID的角度来重新梳理底层数据以及算法,用价值观分群的方式,用大规模、工程化的数据处理能力,智能化洞察每个个体的需求,来重新定义人、货、场之间的关系。

这也一定是未来数据产品的发展方向。

把商业从数据意义上强回归到「以人为中心」,这就是人群包的意义所在。

14.

如果略加展望,那么,未来那些拥有「数据围栏」,并能够从各种业务中收集到人群数据的商业项目最具有商业前景。

举生鲜超市为例。

线下的生鲜超市,在高德地图上只能说是一个point(点),而不是POI(point of interest)点,因为在地图的这个点上,你只能查看到地址在哪,从我所处的为止过去要多少公里,可能还有一些外观的照片和店铺自己写的介绍;

好一点的生鲜超市会开展线上配送业务,那么,你在饿了吗的app上可以查看这家店铺有哪些生鲜供货,价格如何;

但是,当消费者的ID在平台上和其他平台数据打通以后,那么,店铺或许就会知道核心消费者的消费水平如何,他们更喜欢在外面吃饭还是自己做法,他们经常听什么音乐,喜欢什么明星,因此,就可以在店铺中针对性的开展新业务和提供新的服务,这个时候,在这个point上就富集了大量的人群兴趣,并且,我们有途径(比如支付宝)可以和人群产生互动,让数据流动起来成为活数据。

我并没有说盒马鲜生,不过我认为这就是接下来最具有数据商业前景的模式:

  1. 首先是线下某类人群的富集区域或工具(原生或者后来创造);
  2. 其次是该业务整体上线,并且可以通过第三方支付、移动app等方式和人群发生互动;
  3. 长远来说一定是数据可规模化采集,或者属于独特的数据类型,或者就是数据质量特别高,短期内的表现可能是人群需求富集,或者是人群(包)质量比较高。

这个公式简单来说就是:数据上云=零售上网+人群包。

下一篇会对这个公式进行详细解释,这篇就写到这里了。

<未完待续>

人了解世界的时候,都是先问who & where,慢慢学会问why,当对答案不满足的时候就开始问how,所以,knowhow才是人对世界的回答。谢谢关注Knowhow_Ho,何夕一言堂,这是我对世界的回答,一家之言,不求正确,但求有所启发。


*本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可*
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容