数据分析的一些粗浅思考

数据分析岗位是随着互联网行业发展而发展起来的,互联网企业积累了大量数据,必然要对这些数据处理、加工、分析、应用以获取价值,由此产生三个岗位,即:数据挖掘、数据分析、算法岗。

数据分析的目的或是为了监测,比如某个关键指标(KPI)突然上升或下降,那么通过分析数据给出变动原因;或是为了A/B测试,其实有点像控制变量法,产品迭代后看相关指标的变动;或是为了业务增长,这方面可以参考“增长黑客”,与数据运营类似;当然最多的还是通过数据量化地科学地观察业务掌握业务。

数据分析应该以业务为核心,不是为了炫技,也不是为了分析而分析,这就需要对业务有全面深入的了解。了解业务,最重要的方式就是在工作中学习,多和业务部门交流,多问为什么和取数的目的是什么,如果条件允许的话,最好能够参与业务的进程。除此以外,还应多和该行业的从业者交流学习,包括阅读一些行业报告、学习数据分析业务课程等等。

数据分析技术方面大致上属于工科,工科的学习方法有点像个木匠,或者像个剑客,只看书看视频不去实操,效率不大,需要干中学,学会一些基本技能,马上去应用,有的时候都不需要理解其中原理,只要会操作就行,这是工科的学习方法,当然如果想精进技术还是应该掌握原理的。其次,工科是和机器打交道,机器会不断升级迭代,人也需要随机器而动,不断学习新技术。数据分析机器的基本内容有很多相似之处,如Excel、SQL、Python这数据分析基础三件套的语法就有很多相似之处,学通一种工具对掌握其他的很有帮助。而且,发明机器的是人,新的构想大多是站在前人思路上继续前进,我们掌握基础机器对掌握新发明的机器是有帮助的,所以不要畏惧变革,应持续学习。

数据分析的全过程大致可以分为数据采集、数据清洗、数据报表呈现和可视化、数据建模和分析、最后得出结论或给出建议。如果业务需求比较同质的话,还可以把整一套流程工程化,形成一个数字产品,每次输入参数,得到想要的部分内容,大大提高效率。

其实这一套流程和经济学的研究方法很像,不仅能应用于工业界,也可以应用于学界,所以空闲时间会继续自学数量经济学和数学(特别是数理统计)课程。我个人的兴趣点在中东和穆斯林话题,可以把这一套流程用于对此类话题的研究中。量化分析是未来社会科学的趋势,目前我想到几个感兴趣项目:如用数学语言公理化体系重写一遍思辨教义学、对古兰圣训做词频分析和情感分析、对花儿做词频分析以把握底层回族的思想动态、爬取美团和饿了么的清真外卖的数据做分析……希望能将职业技能应用于兴趣点,使这两者交融发展,互相促进。

下面是数据分析各个环节所需的技能树,这半年的任务就是把这些技能先粗略地掌握,能够比较流畅地完成数据分析任务。然后逐渐深入,希望未来五年内成为这个领域的专家型人才。

1.数据采集。有个相关的术语叫“埋点”,数据可以是业务部门提供的,也可以是一些行业或政府部门提供的,最后就是自己挖掘了。最常见的方法是爬虫,爬下的数据载入Mongodb数据库。此外,还可以把一些文字内容切成词频表,利用Jieba等工具分析,我不清楚视频、图片、语音能不能数据化,印象中是可以的。这方面的技能树有:数据挖掘(这是一个很大的领域,目前粗浅了解即可)、爬虫(对网页的了解和正则表达式)、存放数据的仓库(数仓)。

2.数据清洗。如果是业务部门提供的数据很可能已经是完美的,这时只需要构建指标体系,通过SQL语言取出数据。SQL语言应注重性能,学会调优,特别是数据量较大的时候,不应该追求语法的简练而应该深入了解SQL语言的原理,写出高效的SQL语句,SQL技能应该精通。当然很多时候获得的数据是脏数据,需要通过Python导入数据,利用python和numpy和pandas这两个库进行处理。先查看是否存在缺失值,对缺失值进行删除或补全,查看是否存在异常值,分析异常值产生的原因,删除重复值,把粗糙的数据切割转化为可供分析的数据。这方面的技能树有:SQL语言、Python的基本语法和numpy和pandas、missingno这几个库、正则表达式、EXCEL。

3.数据可视化。把得到的数据填入Dashboard(仪表盘)。如果数据量比较少且需要快速作图时的话,导入Excel绘制图表是最方便的,此外Tableau也是重要的可视化工具。此外要想绘制漂亮的定制化的图形应该使用Python的matplotlib和seaborn库。这方面的技能树有:Excel、Tableau、Python的matplotlib和seaborn这两个库。

4.数据建模分析。数据分析应贯穿整个流程,并不是单独一个流程。这是最重要的一个环节,既需要对业务有深入了解,也需要有统计学知识。这方面的技能树有:扎实的统计学基础、利用SPSS做一些聚类和主成分分析等、利用R\Python建模、机器学习算法(如随机森林、决策树、神经网络)、再深入下去就是人工智能领域了。

5.得出结论和给出建议。这方面的要点是数据和业务结合,用简洁通俗易懂的语言说清事实给出结论,之后应跟踪业务,进行复盘和修正。

6.此外还一个大数据领域。这方面目前还没有接触,可能需要掌握一些分布式系统,Java语言,Spark框架,数仓之类的东西。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343