Start - Why, What, How

数据流应用框架

在一家创业公司做数据业务体验真实丰富, 苦恼而又美丽, 不同于大公司的分工明细. 一切的设计都需要根据资源和需求自己把握, 小到虚拟机, 物理机, 大到框架选型, 业务建模, 各种最基础的技术选型都需要关心. 准备把长期积累的一些信息分享出来, 和大家讨论共同进步.

WHY, 数据系统前面的

现如今国内的互联网环境发展的越来越好,第三方服务提供商越来越多。所以很多情况下我们都有两个选项:接入第三方、自己做。

数据分析这块,有很多第三方服务,大的以百度统计、google analysis为代表,通过嵌入其SDK在前端采集数据,在后台便可以查看相应的统计数据。这种方式的好处是简单、免费,使用非常普及,是很多初创企业的首选。缺点也很明显,一是这样的统计只能分析一些基本的访问量、点击率、活跃用户量,满足基本需求,无法结合业务数据来做深度分析;二是需要在前端很多地方埋点上报,耦合性较强;三是数据存储在第三方的服务器中,无法直接获取到数据源。

新兴的数据分析公司了解过的有GrowingIO, 诸葛IO, 神策数据. 都是优秀的人在做的优秀的公司, 各有特长, 有机会以后细聊, 我还是希望一篇文章的字数控制在1024左右, 不超过2048.

百度统计 vs 数据服务公司, 区别总结下来主要有两点: 

一 对于搜索效果来说, 这里只说百度是因为我相信对于国内的大部分的公司来说, 互联网流量的主要来源还是百度, 那我们来说70%以上的流量来源于百度. 下图可以看到, 大量的搜索词无法解析, 这个对于广告投放效果, SEM/SEO的反馈优化都不太好. 

百度统计内部分析行为以搜索见长, 同时也可以做转化漏斗分析, 可以对推广的效果有很好的了解, 可以定义ROI, 持续跟踪推广效果. 不断优化SEM. 截图就不上了, 需要马赛克的太多.

二 第二点不同, 相比百度统计, 数据分析公司提供了更灵活全面的数据采集和接入方案, 跟健全的多维分析方法,  以及更更全面的业务指标分析, 包括留存(活跃度), 漏斗(转化路径)分析等等. 这一点上其实可以看到百度统计也在不断引入新的功能, 新兴公司如果保持上述优势是个问题, 可能需要提供更深入的saas服务, 与客户的业务数据对接?


简单分析了第三方数据服务的功能和特点. 对于我们的业务来说, 我们有复杂的内部微服务集群, mcu服务集群, 直播服务集群, 信令 323接入体系, 以及定位和功能不尽相同的设备终端. 同时我们也需要运营自己的网站引流. 这么多的业务数据需要收集分析和监控, 模型的设计也很复杂, 而且要求经常变动, 这决定了我们不可能完全依赖于三方给我们提供数据分析服务.

所以, 我们必然要上自己的分析系统, 但合理的使用第三方服务还是必要的, 所以目前决定的是终端与网站等和UI操作相关的行为分析使用第三方服务, 其中留存和活跃分析提供参考信息. 

以上是为什么我们需要自己做数据分析. 也说一些官话, 随着移动互联网的发展和大数据思维的普及, 越来越多的创业者, 投资人开始重视数据的作用, 而不再是随便拍脑袋. “数据驱动决策”, “精准化运营”, “产品快速迭代”这些概念被越来越多的人提出和使用, 其背后都离不开精准的数据分析. 对于大多数互联网创业公司来说, 其背后没有强大的资源与财主支撑, 如何在有限的人力, 物力下快速摸索, 少走弯路是至关重要的, 而基于“数据驱动”来做决策、运营与产品将起到一个关键的作用.

WHAT

我们并不是一个纯粹的互联网公司, 甚至可以说目前并不是, 但其实我们有非常丰富立体的数据, 这块的财富我相信随着业务量的增长他的价值是不可估量的. 小厂做数据分析, 这个度很重要, 能做的事情很多, 尤其是面对着这么美丽的信息, 不过毕竟资源有限, 需要认真考虑那些事情是有价值的, 是可落地的. 其实即使对大厂来说, 数据分析方面的优秀实践好像也仅仅是我们了解到的标定特征, 推荐方面, 而且有些很高大的推荐算法所产出的效果可能并没有那么美丽.

对于从零开始的创业公司, 数据的需求早期可能集中在各种报表的展示, 包括基本的运营情况, 包括各种产品使用的统计情况, 这个其实很重要, 让大家看到数据很重要. 对事物的认识其实也是从简单开始, 大家熟悉了数据之后, 必然会有很多OLAP的分析需求. 所谓数据分析师会了解更多的如何发现我们所不知道的知识的能力, 但其实每个深刻了解业务的人都可以是个好的"分析师", 需要给大家这个机会和途径去分析.

数据的处理其实是个标准化的处理流程, 文章开头的流程我觉得已经涵盖的很清楚, 包括数据的采集, 传输处理, 分析及可视化. 做这个系统之前一掉要有充分的心里准备, 因为数据源, 基础数据的处理工作可能会占用你70% ~ 80%的时间, 而且可能很枯燥和烦人, 但是这个工作是一切的基础, 必须认真对待, 包括数据的格式, 命名标准, 数据的采集方式, 数据的业务级别定义等等. 而且有个很重要的部分是元数据的管理, 随着业务的发展, 这块会越来越重要, 所以即使初期不知道怎么做, 也需要心心念.

这个图是曾经探索学习的阶段, 神策数据的桑文锋大牛课上的一张图, 抱歉直接用了.

HOW

实现需要结合自身的业务,做的更灵活,尽早摸索数据业务,逐步建立相应的数据系统。当然,自己做并不代表是造轮子,创业公司需要充分利用开源框架来实现相应的功能。

关于如何这个topic, 其实应该好好讲讲我自己的学习历程, 因为我并不是这个领域的, 基本上零基础, 当初在用mongo的mapreduce写大量case的时候, 我连SQL都还不太会写. 这个过程真的是非常的辛苦, 数据这个领域无论是工程方向, 还是分析挖掘方向, 即便是可视化都有很多的美的东西需要去学习和体会.

文章开头其实是我们现在已经基本建立起来的, 以后会详细展开. [2048]

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容