统计学

数据分析和统计所付出的成本是不能超过决策所节省的费用的
统计分描述型和预测型

描述:表格法和图形法

饼图:显示占比
每一块的占比 = 相对频数分布×360°
但通常人们使用柱状图来显示各百分比
对于频数较小的组别,并到‘其他’中。

散点图:相关性
条形图,复合条形图和结构条形图,复合为比较-各自分段的高低,结构为构成-各自分段的占比。

频数分布:其中的值各自出现的次数
相对频数分布:其中的值出现次数占总次数的百分比

累积频数分布:小于等于各值大小的数量
累积相对频数分布:小于等于各值占总数百分比,比如95%的审计在29天内完成等

辛普森悖论:交叉表做出结论时,需要审查未综合的数据,可能会出现不同的结论

数值方法

例:应收账款的例子平均数40天、中位数35天、众数31天
意思是:一张发票的平均收款期限是40天,有一半的发票超过35天没有付款,最常见是发票未付期限是35天。

通常要考虑样本(局部)和总体统计方法出现数值的区别
平均数:加总求和除以个数,要注意:类似价格和数量求平均单价的情况下不能分别只求价格平均数,而要使用加权平均数
中位数:升序排列后中间的数,不受异常大或异常小的数据点影响,也可以表明有一半的数据已经超过或者小于这个数
几何平均数:N个增长因子的N次方根,多用于计算平均变化率和平均增长率
众数:出现次数最多的数据,大部分只有在单众数和双众数时有意义
极差:最简单的离散程度的度量,在有异常大或者异常小时无效
四分位数间距(IQR):相比极差可以克服异常大和异常小值的问题,第三四分位数-第一四分位数。
方差:比较两个和两个以上变量变异程度的有用工具。
标准差:方差开根号
标准差系数:标准差离平均值偏离的百分比。通常用于计算月回报率与长期回报率波动的度量。
z-score:归一化常用方法之一、(样本点-总平均值)除以标准差,目的是为了计算各值偏离多少个标准差

切比雪夫定理:知道平均数和标准差,可以确定大部分数据值所在的区间。
至少75%的数据值和平均数的距离 z-score<=2
至少89%的数据值和平均数的距离 z-score<=3
至少92%的数据值和平均数的距离 z-score<=4

经验法则:正态分布下
约68%的数据值 在1个标准差之内
约95%的数据值 在2个标准差之内
几乎所有的数据值 在三个标准差之内
箱形图:上限Q1中位数Q3下限。
协方差:可以用数值来表示两列数据的相关性,但是单位小的时候数值会过于大,但表示的意义会有误解
皮尔逊积矩相关系数:协方差的修正版以1为正相关,-1为负相关,但仅在线性时有效

概率

多步骤实验计数法则:
古典型的概率:用树型图列出所有各阶段可能性,计算最后一列的唯一值出现次数占所有情况的百分比就是其中的概率值。
相对频率法:通过过去各情况出现次数占比,来预测未来某情况的出现
概率,比如某项目完工时间预测
如果求小于某值的概率发生情况,只要把小于这个值的概率加起来就可以了,比如:小于10月份的完工时间
2、在报告和报表中,可以通过概率计算公式,计算属于这几个事件的概率(和),计算这几个事件同时发生的概率(交)
独立事件:概率相乘
互斥事件:乘法公式
3、条件概率:可以通过你想要的概率的多个列的分组汇总后的交叉表扩展列,来计算某条件下的概率
4、贝叶斯公式:要发生情况的概率/所有可能发生这件事的各种情况加总
离散型随机变量
数学期望=可能出现的数值(x)×权重(各自概率)
多个数值的总期望等于这些的求和
离散型随机变量方差 =(可能出现的数值(x)-总期望)²×权重(各自概率)的求和
二元离散概率分布:两列数据做交叉表然后计数,显示为标准化百分比
二元离散联合概率分布计算:s=x+y,将各自数字下的值归类加总到一起
二元相关系数=二元协方差/x标准差*y标准差
二元线性组合的数学期望= a × x的期望+b×y的期望
还可以二元线性组合的期望方差var(a×x期望+b×y期望)公式可查
各种离散分布类型的性质下,可以用不同的公式计算,N次中有多少种方式可以得到成功x次的方法(排列组合)、第x次成功的概率(概率函数)以及数学期望和方差

二项分布性质:
1、由一系列相同的N个试验组成
2、每次只有两种结果,可以称为成功或失败
3、每次试验成功或失败的概率相同,可以用p和1-p表示
4、试验相互独立
比如:是或不是的问题
二项分布次数过大可以用正态分布计算,这个值-0.5和+0.5的区间面积来近似,小于这个值需要 -0.5修正,大于需要+0.5,区间-0.5~+0.5,计算标准差记得开根号 根号np(1-p)

泊松分布性质:
在任意两个长度相同的区间上,发生的可能相同
各区间发生的可能性独立
期望=方差
比如:n分钟内有x人到达

超几何概率分布使用情况:
每次试验不独立,成功概率不等
比如:N个球中有a个红球b个白球不放回抽样 求概率期望和标准差

连续型概率分布
计算上:小于X就是等于X

均匀概率分布:
(1/区间总宽度)×你想要计算的宽度 = 概率
比如120~140之间 概率为1/20,要计算16~19之间的概率,就是(1/20) × (19-16)
密度函数1/(b-a)
期望;(A+B)/2 ,方差=((b-a)^2)/12 ,标准差:开根号

正态分布:
计算时可以转为标准正态分布
z=个人认为也可以解释为变动比例,百分比,或概率
x=所带入计算的实际值
指数概率分布:
泊松分布是区间内X次的概率,只需要均值
指数分布是时间段内发生的概率(累积),需要用单位时间

抽样分布

抽样分布指的是在没法获取整个所有数据集的情况下,用部分的随机数据进行估计,需要保证抽取的是随机的,估计的时候需要用另外但类似的公式算均值标准差和比例标准差。结果是可以算出一个可信度为x%的一个估计区域

区间估计

在抽样估计的情况下可以设定一个可信度区间(置信区间),然后算出它的误差,给出均值和比例的区间;或者设定置信区间和可接受的边际误差,求所需样本数量
已知总体标准差:按公式算就行了
不知道总体标准差的情况:把公式里的换成t分布公式,自由度为样本数量n-1

假设检验

做出一种假设和整个假设相反的假设,然后代入公式
H0:备受质疑的命题
H1:有待验证的问题
显著水平一般设定为0.05 or 0.01

第一种错误:结论是对的,但是它错了的概率
直接套公式,小于直接计算查表(下侧概率),大于1-查表值(上侧概率),双侧是单侧*2=p-值
负的就是小于,正的就是大于,预测失误率小于显著水平,就同意小于或者大于,失误率小于显著水平即是不等于
显著性水平=可接受的错误概率,判断的是H1的错误率
已知和未知与之前一样,未知把总标准差换成样本标准差,查表为t分布表,自由度为n-1
例:找到研究报告后,自己抽样来验证研究报告是否适用于自己的业务

第二种错误:结论是错的,但它对了的概率
计算时,需要先计算出z的拒绝规则,大于或者小于某个值就拒绝,然后再反求出临界值,然后再用均值和这个临界值按第一种错误计算

依旧可以确定假设检验的样本容量

二总体均值和比例的推断

用于标准和所要对比的样本之间的区间估计和假设检验,
两个不同的样本量标准差之间的比较
计算方法变了公式之后基本同上,D通常假设为0
例子上大多用在质检和计算机计算辨别

十一、总体方差的统计推断

可以用来计算同一总体和不同总体两样本不同的数量和方差下,他们的区间估计和他们之间是否显著和比较误差,计算二方差的假设检验统计量时较大的为分子,计算F差异时,小于查表F值就是无差异大于就有
s为方差给出标准差时计算记得平方,答案如果算的是方差要标准差的区间记得开根号

十二、多个比例、独立性检验、拟合优度检验

三个或多个比例相等的检验:(观察频数-期望频数)^2/期望频数
成对比较的话,pi-pj的绝对值小于临界值就是不显著,大于就是显著
独立性检验:小于就是不独立,大于就是独立
拟合优度:检测是否服从正态分布,可以用ks检验代替

十四、简单线性回归

简单线性回归方程:截距+系数*斜率

判定系数:
SSE(误差平方和):(原值-预测值)的平方加总
SST(总的平方和):(原值-均值)的平方加总
SSR(回归平方和):(预测值-均值)的平方加总
SST = SSR+SSE
R^2=SSR/SST

相关系数:
等于回归方程的斜率的正负号 根号r^2

   显著性检验:SSE/(n-2)

以及其他检验方式
区间估计可以确定线性回归的误差范围,在什么值以内可以使用,越窄的越精准

残差分析:数值方法确定异常值,有些异常点是正常的不可以被清除,残差图就是正态化的散点图
十五、多元回归
类似简单线性回归,用于多个变量的回归分析
逻辑斯提回归,提供两个点的区间,可以知道机会比率(在某个变量下,一个值的机会比是另一个的x倍)
十六、回归分析

交互作用:可以通过增加一个含有两个预测变量的二阶模型来确定因变量与哪个更有关
可以通过对数或者倒数的方法来减少非常数方差,稳定波动减少数值大小
计算相关矩阵后,对于任意两个变量,系数的绝对值大于0.7,多重共线性会对结果产生影响
可以使用杜宾瓦特森方法来检验是否自相关,值越小越相关
十七、时间序列
无论使用什么样的预测方法,都不能获得理想的预测结果
时间序列的模式:
水平模式:围绕一个平均值上下波动
趋势模式:有波动的状态,但会随着时间变化逐步提高或个降低
季节模式:周期模式
趋势季节模式:同周期性的趋势模式
预测精度:
MAPE(百分数预测误差的绝对值的平均数)
消除时间序列的平滑方法:
移动平均法:最近K期数据之和/K
加权移动平均法:例如:k-3是六分之一权重,k-2是六分之二权重,k-1期是六分之三权重
指数平滑法:t+1期的预测值 = 平滑常数t期实际值+(1-平滑常数)t期实际值)
线性趋势回归:就是线性回归
非线性趋势回归:截距*(斜率)^t次方
季节趋势要消除季节影响经过季节指数计算

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,214评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,307评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,543评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,221评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,224评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,007评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,313评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,956评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,441评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,925评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,018评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,685评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,234评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,240评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,464评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,467评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,762评论 2 345

推荐阅读更多精彩内容