诸葛io,面向数据智能时代的大数据实践(上)

本文来自于诸葛io创始人孔淼的《诸葛io,面向智能时代的大数据的实践》上篇之大[数据平台发展浪潮]。

前言:写下这篇关于大数据平台的发展变革,以及诸葛io 自身架构演变的文章,是因为在诸葛io上线的20个月里,我们经历了客户量从0到10,000的突破。今天,诸葛io作为新一代数据分析平台,累计了过万 的企业用户,每月活跃客户数2000+家,月有效行为数据处理量超过了100亿。期间,我们的研发团队面临过许多难题与挑战,同时,对于大数据平台的发展 与架构也有更多的思考与沉淀。这些思考与实践,正是本文中将要和大家分享的内容。

大数据平台的三次浪潮

在讨论诸葛io这样的新一代数据分析平台之前,我们可以回顾一下1990年到2016年间,大数据平台经历的三次浪潮。

1.第一波浪潮

第一波浪潮起源于90年代,当时从计算机到软件大多还是企业级的,而数据分析就已经开始,这个时代也还是集中式软件时代,存储数据的成本也非常昂贵,所以大部分企业以KPI角度,抽取少量结构化数据,采取特定数据。代表企业如MicroStrategy、Microsoft、Oracle,代表产品诸如Sybase、Congos。这个时代能产生的数据有限,能处理数据的能力有限。

图1

2.第二波浪潮

发展到2000年左右,互联网的兴起,带动了计算机和软件从工具型走向消费级,由于互联网基础设施的发展,以下三点带来了数据的爆发式增长。

1) 网络带宽的升级优化,从2g到4g,从拨号上网到光纤入户。
2) 围绕互联网信息化带来大量的数据产生,如门户网站,社交平台,内容和视频平台等。
3) 科技发展,从PC到移动设备到各种智能设备,都可以采集传输数据。

数据的存储成本越来越低,数据的产生速度越来越快,数据量越来越大,第一波浪潮时的技术体系无法满足需求,并且由于摩尔定律基础硬件设备和条件也在优化,处理数据的能力越来越强,此时带来了大数据平台第二波浪潮的发展:

图2

面临这样的环境趋势,第二波浪潮需要解决的核心技术问题包括三方面:

1) 越来越分散的数据需要集中采集处理
数据采集集中大多是“Pull”和“Push”两种方式,由于收集方式,可扩展性,收集效率,消息队列等都需要一些突破。
2) 计算的可扩展性
机器资源已经不是瓶颈。如何能分布式计算,把计算的复杂度分散拆解是核心要解决的问题,比如算法上的“多项式拆分”到计算框架上的“批处理”
3) 存储的可扩展性

越来越量大的数据,如果只是本地文件存储或者数据库存储,效率越来越低下,所以保障访问和提高效率,可以灵活扩展存储数据也是要解决的问题。

大数据技术在这个阶段陆续诞生了从Facebook早期开源的Scribe到Cloudera的Flume,到Linkedin的Kafka,以及后来的 Flink等数据流处理框架,熟知的还有Spark/Storm/Samza等实时处理技术。这个阶段,很多人都在提大数据和Hadoop,但是我们做到 的是数据流处理和实时处理以及存储方式的突破和革新,分析主体是分析中心化方式。由BI团队或者数据团队驱动,集中式的制定KPI,数据采集集中之后会按 照KPI进行处理展现。如果遇到多样化或者探索性的业务分析需求,还需要on-demand(按需)去编写程序或者SQL来基于这些大数据平台获取结果。

3.第三波浪潮

发展到2010左右,互联网发展从信息化走向了服务化,创业方向也从之前的“门户时代”、“社交时代”,“垂直化门户时代”,“内容视频时代”走向了电商、 出行、外卖、O2O等本地服务。如果说面向信息化的时代更多的是基于流量广告等商业模式,面向服务化时代更多的是直接面对客户价值的变现商业模式,或者说 消费者服务,所以从行业发展来看,服务类对分析的需求也要旺盛很多。

我们可以用破木桶蓄水过程来类比,到处都是水源的时候,并且外部水源流入率大于自身流失率的时候,更多的思考的是抓紧圈水源而不是找短板。从2000年到2014年,流量势头猛进,到处都是用户,对于企业而言更多的思考是如何圈用户,而不是如何留住用户并去分析流失原因。

当外部没有更多水源进入并且四处水源有限的时候,我们需要的是尽可能修复木桶,并且找到木桶的短板。在2014到2015年之间,互联网流量红利也初现消退 之势,国内的经济下行压力也逐渐增大,就好比水源有限一样,企业更多的需要分析自身原因了,去提高各种转化率,增加用户的忠诚度和黏性,减少用户的流失。 因此分析需求开始逐步提升,各个业务部门也都需要自我分析优化成本,提高产出和利润。

过去企业更多面临的是由上而下的KPI中心化式分析,形成了分析中心化体系,基本上整个公司有统一关注的指标和数据看板,但是各业务部门的分析需要单独处理。

数据分析从行业、角色、部门和场景而言,都是差异化的。

1)行业:电商关注的是购买相关指标,内容关注的是阅读相关指标,社交关注的是参与度相关指标,工 具关注的是功能使用情况。
2)角色:CEO关注的是整体、财务各部门的KPI;市场VP关注的是营销相关的子项目KPI;销售VP关注的是销售阶段状态和结 果相关的指标;
3)部门:市场关注的是投放转化率等指标;产品关注的是功能留存率等指标。如果要更充分的满足分析需求,需要从KPI中心化分析转向分析去 中心化,也就面临着又一次大数据平台的技术革新,也因此推动了大数据平台第三波浪潮的变革。

第一第二波浪潮更多解决的还是技术问题,第三波浪潮最重要的是要解决分析问题,但是分析的问题主要有三点:

1) 分析由于行业经验的积累和行业经验的信息不对称而诞生
2) 大多数公司缺少专业分析经验的人和能构建数据分析平台的团队
3) 依赖数据分析团队集中分析的方式效率低下,需求排队。

所以也就意味着第三波浪潮带来的更多不是通用的技术平台,而是更多深入的行业分析应用,所以在数据模型和数据仓库这一层的变革会更大,当然少不了的还是 Google这样大鳄的弄潮,开源了BigTable带来的是以Hadoop为核心的第二波浪潮兴起,而Google的BigQuery是第三波浪潮的代表。

图3

第三波浪潮带来了一个新的概念——DI(数据智能)。不同于BI的是:DI关注的是数据对各个业务部门的决策驱动和应用,而BI关注的是基于业务收集数据处理数据的过程。

第三波浪潮下的大数据平台,会从分析看板开始,有各个行业下各个业务部门所关注的指标,并且业务人员可以灵活的配置,同时对于复杂的分析下钻和数据探索的过 程而言,业务人员也无需SQL或者代码,可以直接通过交互式的查询组件进行自助式分析和配置。大数据分析的基础技术已经逐渐成熟,而挑战就是基于行业理解 下构建合理的数据模型,以及多维下复杂查询的效率。

诸葛io就是在第三波浪潮下诞生的一款数据分析产品,最大的特点就是快速直接给各个业务部门的人呈现他们需要的目标,无需借助专业人士,指标的可视化,一目了然。

受限于文章篇幅原因,下篇之诸葛io的业务架构实践篇会在明天推送,敬请关注~~

如需转载,请联系诸葛io微信公号(ID:zhugeio),并注明出处。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,392评论 5 470
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,258评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,417评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,992评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,930评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,199评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,652评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,327评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,463评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,382评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,432评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,118评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,704评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,787评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,999评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,476评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,057评论 2 341

推荐阅读更多精彩内容