数据已经成为现代企业越来越重视的资源,与数据相关的职位一般有数据分析师、数据挖掘工程师、数据建模师、数据产品经理等,那么,平时的知识积累该如何进行呢?除了专业知识以外,还需要哪方面的知识?
一、根本思路
我们知道,对于公司而言,工作就是创造利益的过程,如果不能得利,那离破产也不远了,所以,在日常工作中,如何把工作利益最大话,就是我们的根本思路。
利益
既然是如此,那么利益一般来源于哪些方面呢?从时间维度来看,一为短期利益,二为长期利益,短期指得是时间跨度在十年之内,比如营销方式的改进提高业绩,通过科学得分析来控制成本等,长期利益则最长可达百年,这个时候就必须要注重品牌的构建,努力把公司打造成百年老店,基业长青。
思路
我们的目标有了,就是从长远利益出发,把活干好,一步一步走,一件事接着一件事干,那么,具体到干活,我们又该以什么样的思维方式去应对呢?我们在平常看书的过程中,经常会看到某某思想,当我们看到这些字眼时,心里不自觉就会觉得,好厉害,这就是思想的魅力,只有在掌握解决问题的思路后,才能有的放矢得进行。我们中国古代讲“学习”,学什么习呢?学得就是生活习性,学怎么去办事,学怎么去说话,进而学怎么去生存,这也是“学生”的来历。
方法
所以,对于任何一个人来讲,学就要学到解决思路,而这个思路背后由思想决定,比如我们遇到某件棘手的事,该如何解决?第一步肯定是分析问题的矛盾,看看主要矛盾在什么地方,是资源不够,是时间不够,还是投入不够等,第二步就是解决问题需要哪些条件,这些条件是否具备?拿一件具体的事来讲,比如现在网站流量下来了,领导批示,看看做什么事可以把流量搞上去?我们就要分析,主要矛盾在哪?是偶然还是持续降低?如果是偶然得,跟当前的发展环境有没有关系?如是持续,是不是网站的主营业务与客户的需求脱节了?还是内容、排版、字体、颜色等不够吸引人?接下来为了提高流量,是要多做宣传,多布渠道以引流?还是改进网站来留住老客户?如果要做这些,领导支持有多高,起他部门同事合作程度有多高等等。
二、分析基础
一般分析的基础以数学为主,特别是现代的常见挖掘方法,更是以矩阵和概率论为基础,因此,掌握好这两门数学基础,是至关重要得!比如我们在R语言里的处理单位,就是以矩阵为主,做标准化处理,做AB测试时,利用方差分析,确定效果的变化是由于本身改动造成得还是概率性得波形造成的等。
概率
概率论的研究对象是样本,主要想法是用样本去推测全体,指标一般包含均值、极值、中位数、众数、频数,标准差、方差等,这些指标衡量样本的基本情况,也是我们研究样本的第一步;样本的分布包含正态分布、泊松分布、二次分布等,一般根据大数定理及中心极限定理,将大样本的分布近似成正态分布,可以按照正态分布的规律去分析;样本估计包含点估计、参数估计以及区间估计等,一般置信空间以95%为主,还有以p值为中心的假设检验,这个在下面的分析方法中常见。
所以,掌握好概率论是基础,只有把每个指标的含义都理解清楚了,才能在分析业务时,不至于走错路。找一本大学常见的数理统计课本,就可以掌握这些概念。
分析方法
常见的挖掘方法包含分类预测、聚类、关联和时序分析等。其中分类预测占据了挖掘的主要部分,我们在常见的业务分析中,分类是人类学习的本能,当我们面对繁琐的信息时,第一反应就是归类,比如信用违约与否,天气预报,销量的高低等,都可以归到分类的情况里。而聚类则常用于客户价值分类、市场细分等,关联算法则常见于推荐等。这些方法会放到以后的文章里相信说明。
业务水平
不懂业务的分析员不是一个好分析员,哪怕一个人很精通各种模型,但是他不懂业务,就很难做出对公司真正有推动力的分析,我在之前的公司就遇到过这样的团队,做了一个多月,竟然不知道为何要建立最终的因变量指标,就如分析航空公司的客户价值,就必须对飞行信息有深入的了解,在选择消费金额模型时,不能按照简单得花了多少钱来看,因为一个短程商务座和一个长程普通座想对航空公司的价值是不一样的。因此,在做数据分析时,一定要把相关的业务指标消化透。
三、相关工具
俗话说,“欲工其事,必善其器”,所以在做数据分析时,必须要求我们掌握一些工具,按重点我分为入门级Excel,登堂级Spss,入室级R/Python,中间的连接通道就是SQL,当然,在工作之余,仍要接触一些数据仓库之类的知识,或者对可视化感兴趣得,也可以学习echarts。
R or Python?
很多同学在学习到这里的时候,不知道该学习哪种语言,其实,就平时工作中得数据分析而言,两种语言都可应付,而且两种语言都是面向对象的编程语言,学习成本大致相同,两种语言不同得是,R更侧重于统计分析,而python能干得事情则比较多,爬虫、分析、可视化更高大上等,而且python是万能胶水,是常用脚本语言之一,以后的系列文章会介绍R的相关知识。
四、数据产品
数据产品是近几年来刚出来的新概念,也有很多成功案例,就我之前所做的工作来看,有数据新闻,有XX大数据平台,有XX分析平台等,一款产品能不能成功,取决于很多因素,至少当时我们做得数据新闻就没有成功,失败的原因,总结来说,仍是市场需求不旺盛,盲目跟从,在资本推动下,做了一次尝试,那么,数据产品如果要成功,它应该具备哪些因素呢?
需求
这一块是根本,在做一款产品前,应该用各种办法,或调研,或分析,大致估算现在此需求的人数有多少,愿意为此付费的又有多少,客户的特征是否明显?是红海还是蓝海,若有竞争对手,他们的市场份额是多少?竞争力强不强?倘若这块蛋糕确实还有可分的余地,那么再进入不迟。
迭代
迭代是产品成功的保证,实事求是是解决痛点的最佳态度,一款产品好不好,能不能叫卖,必须把它扔在市场上去接受考验,刚开始功能可能不用多,只要含有核心功能就可以,而且一款产品,卖点最好控制在两个以内,至于剩下的功能、板式等,可以根据后续的市场反馈逐步增加,没有任何一款产品,刚出来就会把所有功能都加上去。
公司支持
这里包含三个层面,第一,此款产品在公司的战略规划中,起什么作用,是排头兵攻城略地,是战略储备以做转型需要,还是烟雾弹忽悠敌手?第二,高层对产品的态度,允许犯错的次数,允许盈利的时间,都会对产品的质量和产出有影响;第三,同事的支持,比如一款数据产品,可能牵扯到的职位有需求分析师,他们掌控需求的规模和紧迫程度,数据分析师,该放哪些指标,哪些该放到关键位置,哪些可以隐藏等,数据挖掘/建模师,一些综合性的指标,特别牵扯到实用的模型时就需要这两个部门的人合作才能做出来,数据采集部门的同事,他们负责抓去数据,存储数据,美工部门的同事,他们负责产品的形象设计,最终还需要产品经理,统筹规划,保证项目的进度等,若这些部门的同事都彼此熟悉,合作愉快,那么一款成功产品的诞生,就有了成功的可能性。
其他感悟
做为一名数据分析人员,光关注本身的技术是提高不了自己的,除了自己的专业书以外,如国际国内形势、政策法规、国家战略、各国历史、传统文化、经济金融、心理学、社会学、甚至诗词歌赋都可以涉猎,这些可以充分保证在分析问题的时候,不会局限于某一个点,而是会充分联想,视野开阔得去看待问题,以一种发展的眼光去迎接挑战,至于这一章谈到的各类内容,我会在后续的文章中推荐一些我看过的书。
做一个知识广阔,视野开阔,心胸亦宽广的人,所有问题,最终都是人的问题,现代企业里,产品要懂数据,数据要懂产品,所谓的数据分析师、建模师、挖掘师、产品经理职责的界限越来越模糊,大家的共同目标就是把利润提上去,如此相得益彰,方能基业常青!