超详细的数据分析入门手册,快来pick一下!

数据分析可以分为两种:一种类似产品经理,一种偏向数据挖掘。前者更加注重业务,对业务能力要求比较高,例如需要了解一些常用的营销和管理理论,有一定的传播学基础,对数据十分敏感,而后者则更加注重技术,对算法和代码的能力比较高,得有一定的计算机基础。下文仅介绍第一种类似产品经理的数据分析师需要了解的知识和技术,希望能够给想入坑的同学一点启发。由于本人能力有限,也只是个人学习,如有错误,欢迎指正。

01数据分析|方法论

PEST分析法:用于行业分析。

政治(P):政治体制、经济体制、财政政策、、税收政策、产业政策、投资政策、专利数量、国防开支水平、政府补贴水平、民众对政治的参与度。

经济(E):GDP及增长率、进出口总额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率。

社会(S):人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、购买习惯、教育状况、城市特点、宗教信仰。

技术(T):新技术的发明和进展、折旧和报废速度、技术更新速度、技术传播速度、技术商业化速度、国家重点支持项目、国家投入的研发费用、专利个数、专利保护情况。

以互联网行业为例:

5W2H分析法:可用于用户行为分析、业务问题专题分析。

以用户购买行为为例:

逻辑树分析法:业务问题专题分析。

以利率增长为例:

4P营销理论:可用于公司整体经营情况

以公司业务为例:

用户行为理论:可用于用户研究分析,以网站分析为例:

02数据分析师|知识技术的学习

统计学基础:

统计数是收集、处理、分析、解释数据并从数据中得出结论的科学。

例如我们需要知道水平条形图和垂直条形图有什么区别,有哪些方法可在一张条形图上体现多批数据,频数和频数密度的区别,如何使用直方图,箱线图是什么等等这些比较基础的理论知识。另外,统计学还告诉了我们数据是如何被收集的,数据的整体分布是怎样的,数据的相关与回归、时间序列分析和预测等等。这些在网易公开课上有不错的教程:http://open.163.com/special/opencourse/statistics.html,另外我也帮你整理了一些常用的统计量和概率分布:

SQL(数据库):

当我们去到公司,公司的数据不可能像我们自己的pc那样就存在我们的本地上,每个公司一般都有自己的数据库,那么如何把数据从这些数据库中调出来,然后整成我们希望的样子呢,这些问题就需要SQL来解决了。零基础学习SQL可以阅读这里:https://www.w3cschool.cn/sql/

Python或R:

这是两种解释性语言,就跟英语一样,有自己的单词和语法,我们只需要把单词记住,语法熟练,就可以写我们自己的英文作文了。R是专门用于数据分析和数据挖掘的,使用起来更直接,而Python则更广泛,基本上爬虫、数据分析、数据挖掘、人工智能、web建站等所有的事情都能做。个人建议对自己要求比较高的同学都可以了解。

03如何用Excel|做数据分析

我把Excel单独做一章的原因主要是百分之90的同学都会选择用它来做数据分析,它的优点无非就是简单易用,除去函数和一些高级的应用,完全不用写代码。但缺点也就很明显了,不灵活,并且无法处理很大的数据量。下面我以数据分析常用的六步曲对它进行一个简单的介绍:

Step1 明确分析目的和思路:

首先,我们应根据自己的需求,选用上面某一或多种数据分析方法论的方法。

Step2 数据收集:

各个公司数据库、公开出版物(中国统计年鉴、中国社会统计年鉴、中国人口统计年鉴、世界经济年鉴、世界发展报告)、互联网、市场调查。

二维表转换为一维表:利用数据透视表和数据透视图向导

导入数据:

导入文本数据:数据-自文本

导入网站数据:数据-自网站

不同题目问卷录入方法:数值题、单选题、多选题(二分法、多重分类法)、排序题、开放性文字题:

Step 3 数据处理:

数据清洗:

重复数据的处理:

方法一:数据-排序和筛选-高级-高级筛选(可选择出不重复的数据)

方法二:开始-条件格式-突出显示单元格规则-重复值(可用颜色标出重复的数据)

方法三:插入-数据透视表(可知道重复数据的重复次数)

方法四:数据-数据工具-删除重复值

方法五:开始-排序和筛选-降序-次数靠前大于1的就是重复值

缺失数据处理:

定位输入:开始-编辑-查找和选择-定位条件(例如定位到所有空值)

方法一:用一个样本统计量的值代替缺失值,多用样本平均值

方法二:直接删去

查找替换:开始-编辑-查找和选择-查找(替换)

数据加工:

字段分列:数据-数据工具-分列

字段合并:百度用下函数

字段匹配:两个不同的表匹配到一起,百度用下简单函数

数据计算:=B2*C2

开始-编辑-自动求和

复杂点的函数计算百度或用Python

数据分组:百度用下函数(VLOOKUP)

数据转换:

行列互换:开始-剪贴板-粘贴-选择性粘贴-勾上转置

多选题录入数据方式之间的转换(百度用下函数)

数据抽样:百度用下随机函数等函数

Step 4 数据分析:

对比分析法

与目标对比:完成值vs目标值

不同时期对比:上个月vs本月

同级部门、单位、地区对比:部门A、部门B、部门C、部门D

行业内对比:本公司、对手A、对手B、对手C

活动效果对比:活动前vs活动后

分组分析法:确定组数

确定组距=(最大值-最小值)/组数,也可以视情况不等距分组

结构分析法:结构相对指标(比例)=(总体某部分的数值/总体总量)*100%,例如市场占有率=(某种商品销售量/该种商品市场销售总量)*100%

平均分析法:算术平均数、众数、中位数等

交叉分析法:一维转换为二维

综合评价分析:5个步骤

三大特点:

0—1标准化:

权重确定方法:目标优化矩阵表

上表,假如动手能力比人品重要,则C2为0,人品比创新意识重要,则D2为1,其余同理,最后算出教育背景合计0只是我们的假设,其当然也很重要,因为0无法算,所以统一全加1。某指标权重=(某指标新的重要性合计得分/所有指标新的重要性合计得分)*100%

杜邦分析法:

例如找A用户增加,但A市场占有率下降的原因:

漏斗图分析法:

矩阵关联分析法:以用户满意度为例

发展矩阵:

改进难易矩阵:

举一反三:

高级数据分析方法:

Tip:Excel对于一些数据的清洗、处理和分析除了重点掌握数据透视表之外,也可下载易用宝、方方格子、慧办公等第三方插件,非常好用啊。

Step5 数据展现:

除了Excel的数据可视化之外,现在用的最多的就是Tableau了,它是一款既能生成一般的统计图表,也能够用于数据展现的可视化软件,并且支持多种数据来源的数据导入,只需点点鼠标,就可轻松做出很多可交互的图表,可以去官网看看它的教学视频。

Step6 撰写数据分析报告:

标题页-目录-前言-正文-结论与建议-附录。

04大佬的数据分析|讲解和案例

找数据网站:http://hao.199it.com/

垂直领域的统计工具平台:iOS:七麦数据、禅大师、APPduu;安卓:酷传

第三方统计平台:友盟、TakingData、AppAnnie、腾讯云分析、百度移动统计、神策数据、诸葛IO、GrowingIO

https://www.zhihu.com/question/20129061「数据分析师的具体工作职责和工作内容有哪些?」

https://www.pmcaff.com/discuss/index/315805294081088「数据分析师的日常工作有哪些?如何入门数据分析?」

链家网的租房数据做些有意思的事情?https://zhuanlan.zhihu.com/p/24554589

豆瓣读书分析报告https://zhuanlan.zhihu.com/p/24420062

爬取6.6w+豆瓣电影之后的分析故事https://zhuanlan.zhihu.com/p/24133117

生活中的数据犀利哥之一:开篇及选车https://zhuanlan.zhihu.com/p/20604082?refer=hemingke

生活中的数据犀利哥之二:排队https://zhuanlan.zhihu.com/p/20604263?

生活中的数据犀利哥之三:找座https://zhuanlan.zhihu.com/p/20605096?

生活中的数据犀利哥之四:看趋势https://zhuanlan.zhihu.com/p/20640434?

生活中的数据犀利哥之五:找错因果关系https://zhuanlan.zhihu.com/p/25629403

生活中的数据犀利哥之六:快递员送货https://zhuanlan.zhihu.com/p/25555346

北上广深哪里过得更潇洒https://zhuanlan.zhihu.com/p/20355743?

沧海横流,看行业起伏(2015年)https://zhuanlan.zhihu.com/p/20559922?

和颐事件之后: 怎么定酒店更有安全感?https://zhuanlan.zhihu.com/p/20893016?

老鹿玩数据——不光是求婚神器(一)https://zhuanlan.zhihu.com/p/20712815?

老鹿玩数据——不光是求婚神器(二)https://zhuanlan.zhihu.com/p/20756963?

《春节自救指南》之数据分析https://zhuanlan.zhihu.com/p/24943568?

如何判断一场知乎live的质量?https://zhuanlan.zhihu.com/p/25118397

豆瓣5.6分的《西游伏妖篇》有水军吗?https://zhuanlan.zhihu.com/p/25047215

怎样才能以最少的钱租个靠近地铁的房子?https://www.zhihu.com/question/44724619/answer/192049017

「上海富了周围,北京坑了周围」https://www.zhihu.com/question/26673732/answer/183836709

如何不吹牛地形容北京有多大?https://www.zhihu.com/question/29554848/answer/169811236

路人甲:为什么知乎的众多答主答题后获得的赞是在「一觉睡醒」后才发现的呢?https://www.zhihu.com/question/39272910/answer/164289608

大数据对物流管理有什么影响?https://www.zhihu.com/question/23197748/answer/203163681

约会聚餐如何正确选择餐馆?https://zhuanlan.zhihu.com/p/28224566

路人甲:如何评论华为官方对闪存事件的回复https://www.zhihu.com/question/58645911/answer/159594099

小蚊子数据分析_新浪博客http://blog.sina.com.cn/xiaowenzi22

05参考书目|推荐书目

参考书目:

《谁说菜鸟不会数据分析》《深入浅出统计学》《深入浅出数据分析》《Excel数据处理与分析实战技巧精粹》《路人甲:数据分析修炼手册》

推荐书目:

入门:《谁说菜鸟不会数据分析》《深入浅出数据分析》《深入浅出统计学》《深入浅出SQL》(深入浅出系列很通俗,全案例讲解,可以当小说看)

Excel:《Excel数据处理与分析实战技巧精粹》

R:《R语言实战》

Python:《Python编程-从入门到实践》《利用Python进行数据分析》

SQL:《SQL必知必会》《SQL基础教程》《MySQL必知必会》

Tableau:《人人都是数据分析师:Tableau应用实战》

高阶和应用:《精益数据分析》《数据之美》《数学之美》《数据可视化之美》《啤酒与尿布》《增长黑客》《增长黑客实战》《网站分析实战》

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容