《深入浅出统计学》
大纲
1.统计学的作用
2.集中趋势的量度
3.分散性与变异性的量度
4.概率计算
5.离散概率分布的运用
6.排列与组合
7.几何分布、二项分布和泊松分布
8.正态分布的应用
9.超越正态分布的应用
10.统计抽样的应用
11.总体和样本的估计
12.置信区间的构建
统计学的作用
1.统计学可以帮助企业做出客观的决策,能够进行精准地预测
2.统计学能够使我们个人避免遭人愚弄
- 信息与数据的区别:
- “数据”是指所收集的原始事实与数字。
- “信息”是指加入了某种意义的数据
例如 ,数字5、6、7 只是数字,并不知道有何含义——数据
告诉这几个数代表三个孩子的年龄,数据有意义了——信息
集中趋势的量度
- 均值
容易受异常值和偏斜数据的影响 - 中位数
- 众数
分散性和变异性的量度
1.极差
区分数据集分散程度,最大值-最小值
2.四分位数
- 将数据一分为四,最小的四分位数为下四分位数,最大的四分位数为上四分位数。
- 四分位距:中间的四分位数即中位数。
- 四分位的优点是:与全距相比,较少受到异常值的影响。只关注居于数据中央的50%的数据,这样才能排除异常值的干扰。
3.十分位数,百分位数
第K百分数数即位于数据范围K%处的数值
4.可用箱线图绘制各种“距”
5.方差
方差是衡量数据分散性的一种方法,是数值与均值的距离的平方数的平均值
6.标准差
标准差是描述典型值与均值距离的一种方法,标准差越小,数值离均值越近。
度量数据的分散性
7.标准分
对不同数据集中的数值进行比较的一种方法,这些数据集的均值和标准差互不相同。
概率统计
- 众数
- 概率
3.条件概率
4.全概率公式
5.贝叶斯公式
离散概率分布的应用
1.期望:描述的是概率分布
2.方差和标准差——度量一些特定数值的概率的分散情况的方法
方差越高,表示你的整体收益变化越大,整体的赢钱数额更不可预期,整体收益的可靠性越低。方差越小,每一局的平均收益就越接近期望值。
3.线性变换
如果成本+1,奖赏变为5倍,期望和方差成线性变化
4.独立观测的期望和方差
排列与组合
- 排位方式
2.按类型排序
3.排列
从N个对象中取出R个对象进行排序,并得出排序方式总数目
4.组合
从N个对象中选取r 个对象,不必知道所选对象的确切顺序
几何分布、二项分布、泊松分布
- 概率的几何分布
几何分布的应用条件:进行多次互相独立的试验,每一次试验都存在失败或成功的可能性。
2.二项分布
二项分布使用的条件:进行一系列独立试验,每一次试验成功的概率都相同,且试验次数有限。
3.泊松分布
使用条件:
在遇到独立事件时,若已知 r 且你感兴趣的是一个特定时间区间内的发生次数,使用泊松分布
描述了事件在特定区间内的发生次数
在特定条件下可以用来近似代替二项分布
正态分布的应用
- 对于离散概率分布来说,我们关心的是取得一个特定数值的概率;而对于连续概率分布来说,我们关心的是取得一个特定范围的概率
2.概率密度函数的总面积必须是1
3.正态分布函数
4.概率密度计算的方法:
- 确定分布和范围(计算标准差和方差)
- 使其标准化
- 查找范围
超级正态
- 知道x和y 的概率分布,就能算出x+y的概率分布
2.x属于正态分布,ax+b属于整天分布,则ax+b的概率分布
3.如果X1, X2, ....Xn为X的独立观测结果,且X符合正态分布,则:
4.正态分布代替二项分布
如果用正态分布近似代替二项分布,则需要进行连续性修正,这样才能得到较为准确的结果。因为二项分布是离散型而正态分布是连续型
- 计算p(x>=a)时,离散数字x是a-0.5
- 计算p(x<=a)时。离散数字x是a+0.5
5.正态分布代替泊松分布
用正态分布近似代替泊松分布,要进行连续型修正
6.总结
抽取样本
1.样本
- 无偏样本
- 偏倚样本
- 抽样空间中条目补全
- 抽样单位不正确
- 抽样单位未出现在实际样本中
- 样本缺乏随机性
2.如何选择样本
- 简单随机抽样
- 分成抽样
- 整群抽样
- 系统抽样
- 重复抽样
- 不重复抽样
总体和样本的估计
1.均值
-
总体均值:
- 样本均值
- 点估计量:根据样本数据得出的对你所认为的总体均值的最佳猜测值
2.总体方差:比样本方差偏大
3.预测总体比例:比例算法用于解决二项分布问题
4.抽样分布的概率
- 例如:Z个球,红球的比例为40%, 现在取出100个球, 里面有40个红球的概率
解 - 随机变量X代替样本中红球的个数,则样本中红球的比例为Ps = X/n,n为取出的球数
- 每个样本中,红色球的数量符合B(n,p), 成功比例为Ps=X/n
-
期望:
- 方差:
- 比例标准误差:
n越大,比例标准误差越小
- 连续性修正
5.中心极限定理:如果从一个非正态总体X中取出一个样本,且样本很大,则抽取n个样品的分布也近似为正态分布
-
中心极限定理的作用
对于二项分布,总体均值为np,方差为npq, 如果带入抽样分布,则
对于泊松分布,均值和方差都为r,则得:
置信区间的构建
1.求解置信区间步骤
- 选择总体统计量
- 求出其抽样分布
- 决定置信水平
- 求出置信上下限
2.置信区间计算的简单算法
3.置信区间简明算法——t分布
当n很小时,t分布给出的置信区间比正态分布的置信区间更宽,着使它更适合小样本
《漫话统计学》
我们调查一件事,调查总体与样本
数据分为
不可测量的数据——分类数据(因人而异)
可测量的数据——数值数据 ( 有具体可衡量的数值)
组、组中值、次数、相对次数、次数分布表、直方图、变量、组距、组中值
算数平均数、arithmetic mean 几何平均数、 geometric mean 调和平均数harmonic mean
中位数median
标准差 :表示一组数据“平均离散程度”的指标 standard Deviation
描述统计学和推断统计学
第三章:掌握数据整体的状态
将问卷调查转变成次数分布表
第四章:标准计分和离差
离差;Deviation Score
标准差: Standard deviation
标准化: Standardization
标准计分:standard score (数据-平均数)/标注差
第五章:求机率
机率密度函数:Probability Density Function 简称:pdf
正态分布函数
以平均值为中心呈左右对称
受到平均值和标准差的影响
面积=比例=机率
标准正态分布表记录对应横轴的可读之机率的表
卡方分布
卡方分布表则记录对应机率之横轴刻度的表 x^2
t分布
f分布
excel 中的分布与对应的函数
双变量的相关分析
相关系数 :correlation coefficient
共变异数:covariance
变异数:variance
相关比:correlation Ratio
数值数据和分类数据是用“相关比” 其值 介于0和1之间
克莱姆相关系数 (独立系数)
分类数据和分类数据之间的相关程度,介于0和1之间
第八章:深入理解独立性检验 (卡方检验)
P值和“检验”的顺序
独立性检验和齐性检验