看完这篇就够了之《深入浅出数据分析》

问题一：如何提升销量

已知数据：近半年的数据报表，含总销量、目标销量、广告费、社会网络费、单价

分析流程：

①确定：确定客户的真正意图，观察现有数据的规律，了解其现象

②分解：将客户的意图拆解为一个个小问题，回答小问题进而解决大问题，找出高效的比较因子

③评估：根据现有信息和数据，分解问题，总结客户确信的观点和你观察数据后的想法，从不同的角度、心智模型做假设，搞清楚客户不知道的事情。

④决策：做出自己明确的假设和结论，背景+数据解说+建议

注：数据分析的根本在于密切关注需要了解的数据、核心是有效的比较。且分析前务必要保存原始数据！

问题二：找出解决销量下滑的办法

已知数据：近半年市场调查汇总表（含月份、调查项、各家分店参加调查的人对各个调查项给出的平均分）

分析流程：

①观察法（找出最相关影响因素）：找出最明显相关因素，把所想到的造成该因素变化现象的事务之间的联系画出来（因果图）

②比较法（对比找出较优解决方法）：注意排除混杂因素的影响，随机选择是种避免方法，要注意将可能成为混杂因素的那些因素最终在控制组和实验组中具有同票同权，采用控制组做对比

注：数据分析的重点在于分析的结论有意义。

问题三：制定最佳的组合生产方案

已知数据：两种产品的利润、有多少橡胶可以用来生产两种产品、生产两种产品的时间分别多久、两种产品近3年每月的销售量表

分析流程：

①最优化问题：找出约束条件/限制条件（原材料限制、生产时间限制、销量可能限制）、决策变量/目标变量（利润最大化）

②Solver求解器：excel一键求解

注：你要做好修改模型的准备！

问题四：选择最优主页（3选1）

已知数据：3种主页分别的营业额、用户浏览时间、页面浏览次数、用户回头率

分析流程：

①多元数据探索原因，将数据图形化

②用散点图（R语言实现）探索原因，发现因果关系；X轴是自变量（可能多个原因，浏览时间、浏览次数、回头率），Y轴是因变量（结果/期望目标，营业额）

③每个观察数据是图上的每个点，同时分别用虚线和实线画出XY的目标值和当前平均值

注：面对大量数据时，需记住目标，将目光停留在和目标有关的数据上，无视其他。

问题五：何时开始提前生产新产品

已知数据：3种主页分别的营业额、用户浏览时间、页面浏览次数、用户回头率

分析流程：

①用网路图画出数据变量之间的关系图，并观察其间是正相关还是负相关

②假设检验：证伪法，用已有的证据剔除错误的假设

③证据的诊断性：用具有诊断性的证据评级排序已有假设，挑选出可能性最强的假设

注：回避满意法，保持敏锐，防止掉入认知陷阱。

问题六：判断患病的概率

已知数据：L患病，~L未患病，+阳性，-阴性

①基础患病概率：P(L)，研究表明总人口中有1%的人患有蜥蜴流感，可以同时计算出“基础未患病概率”P(~L)=1-P(L)=99%

②真阳性率：若某人已患蜥蜴流感，试验结果为阳性的概率为90%

③假阳性率：若某人未患蜥蜴流感，试验结果为阳性的概率为9%

分析流程：贝叶斯规则

①P(L|+) 实验结果为阳性的患病概率

②P(L|+) = a / b

a= 基础患病概率P(L) *真阳性率P(+|L)

b=基础患病概率P(L) *真阳性率P(+|L)+基础未患病概率P(~L) *假阳性率P(+|~L)

注：避免基础概率谬误的唯一方法就是对基础概率提高警惕，而且务必要将它整合到分析中去。贝叶斯规则可以反复使用，注意每次使用时，要根据上一次的结果调整新的基础概率。

问题七：如何解决分歧、确定决策方向？

已知数据：分歧的主要问题有哪些、不同人对这些问题的可能性看法

分析流程：

①主观概率：即用一个数字形式的概率来表示对某事的确认程度。

②散点图：图形化观察大家对不同问题的看法分歧度有多分散

③标准偏差：标准偏差越大表明值分布越分散、差异越大。（=STDEV函数（数据范围））通过标准偏差排序，选出大家分歧最小的问题

④贝叶斯规则：出现新信息，对我们已有的主观概率可能会造成影响时，用来修正已有的主观概率。修正后再制作散点图，观察该观点的分歧度

新证据E：俄罗斯宣布将卖出油田

已获得的基础主观概率：P(S1)，可以同时计算出P(~S1)=1-P(S1)

需要修订假设S1：俄罗斯下一季【是否】将继续补贴石油业

需要收集数据：在S1的情况下出现E的主观概率P(E|S1)、在~S1的情况下出现E的主观概率P(E|~S1)

需要计算的结果：在E的条件下出现S1的主观概率，即P(S1|E)

公式： P(S1|E) =  ① / ②

           ①= P(S1) *P(E|S1)

           ②= P(S1) *P(E|S1) +P(~S1) *P(E|~S1)

注：主观概率特别适合在预测孤立事件，且缺乏从前在相同条件下发生过的事件的可靠数据的情况下使用。

问题八：如何对无法量化的工作做成果评估

已知数据：实际决策变量和约束条件太多，要得到量化数据的成本太高

分析流程：

①启发法：选择一两个变量，然后根据这些变量对整个系统做出结论，据此评价工作成效。

②使用快省树描述启发法

注：固定模式都具有启发性。启发法并非百试不爽，快而省的经验可能有助于找出某些问题的答案，但在其他情况下，也会先入为主、危险至极！

问题九：是否该主动向老板要求加薪？

已知数据：过去三年公司3000名员工的加薪记录（含序号、得到的加薪幅度、是否主动提出加薪、性别、加薪年份）

分析流程：

①直方图：显示出数据点在数值范围内的分布情况（excel：数据-数据分析-histogram）

source("http://www.headfirstlabs.com/books/hfda/hfda.R")

hist(emplyees$received[emplyees$negotiated==FALSE, breaks=50)

hist(emplyees$received[emplyees$negotiated==TRUE], breaks=50)

②平均值、中间值、标准偏差

sd(emplyees$received[emplyees$negotiated==TRUE])

summary(emplyees$received[emplyees$negotiated==TRUE])

sd(emplyees$received[emplyees$negotiated==FALSE])

summary(emplyees$received[emplyees$negotiated==FALSE])

问题十：（接问题九）如果主动，加薪幅度该要求多少？（预测）

已知数据：同问题九

分析流程：

①散点图

employees<-read.csv("http://www.headfirstlabs.com/books/hfda/hfda_ch10_employees.csv", header=TRUE)

head(employees, n=30)

plot(employees$requested[employees$negotiated==TRUE], employees$requested[employees$negotiated==FALSE])

②回归线：输入x预测y值，y=a+bx，a代表y轴截距（x=0），b代表斜率

myLm<-lm(received[negotiated==TRUE]~requested[negotiated==TRUE], data=employees)

myLm$coefficients

得出的前一个数字是a，后一个数字是b

注：回归线对具有线性相关特点的数据很有用

问题十一：（接问题十）预测有偏差？

已知数据：同问题九

分析流程：

①外插法：数据范围以外的情况，因为缺少数据无法进行预测，可以提前增加注释“预测范围介于x%至y%之间有效”

②内插法：数据范围以内的情况，但偏离回归线

③机会误差：实际结果与模型预测结果之间的偏差

④回归线的均方根误差值：又称残差标准差。增加注释“大部分（但并非全部）结果会落在高于或低于预测结果x%的范围内”

summary(myLm)$sigma

⑤管理误差：将数据分拆为几个组（分割），例如按10%分界分成两条回归线

myLmBig<-lm(received[negotiated==TRUE&requested>10]~requested[negotiated==TRUE&requested>10], data=employees)

myLmSmall<-lm(received[negotiated==TRUE&requested<=10]~requested[negotiated==TRUE&requested<=10], data=employees)

summary(myLmBig)$coefficients

summary(myLmBig)$sigma

summary(myLmSmall)$coefficients

summary(myLmSmall)$sigma

注：预测总是与机会误差同在。你的分析应该介于具有完全解释功能和完全预测功能之间。

问题十二：找出每期刊物上刊登文章的最优数量（确保带来更大销量）

已知数据：销量、期数、文章、作者表格

分析流程：

①数据库：一系列相互有特定关系的数据。通过数据串联得出dispatch表（含期刊ID、发行时间、文章数量、销量）

dispatch<-read.csv("dispatch analysis.csv", header=TRUE)

plot(Sales~jitter(Article.count), data=dispatch)

②关系数据库管理系统（RDBMS）

多个散点图

library(lattice)

xyplot(webHits~commentCount|authorName, data=articleHitsComments)

问题十三：整理数据

已知数据：一列混杂在一起的数据

分析流程：

①excel通过分隔符分列

②用SUBSTITUTE(单元格,“要替换字符”,“新字符”)

③正则表达式：

NewLastName<-sub("\$.*\$", "", hfhh$LastName)

④排序剔重

注：正则表达式是整理混乱数据的杀手锏。

最后编辑于：2018.06.21 22:06:12

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,242评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,769评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,484评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,133评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,007评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,080评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,496评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,190评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,464评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,549评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,330评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,205评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,567评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,889评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,160评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,475评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,650评论 2赞 335

看完这篇就够了 之《深入浅出数据分析》

推荐阅读更多精彩内容

看完这篇就够了之《深入浅出数据分析》