统计学基础知识笔记
内容来源:《统计学基本概念和方法》
统计学家做的许多工作都是关注一个变量是否影响另一个变量,把这种关注概括为四个问题:
(1) 在数据中,变量之间是否有关系
(2) 变量之间的关系有多强
(3) 总体中是否有关系
(4) 观测到的关系是一种因果关系吗
1、随机性和规律性
统计工作的三个部分:
数据收集、数据分析和由数据做推断
统计学可以被定义为一组由(1)收集数据(2)分析数据(3)由数据得出结论而组成的概念、原则和方法
随机性和规律性是统计的两个重要概念。
数据的收集分为两个步骤:
第一步选择用于度量待考察的元素
第二步是实际的收集数据
2、数据的收集
观测值=真值+非统计错误+随机性
好数据是指根据合理、正确的统计原理收集到的数据
抽样误差:收集数据时带来的误差
未响应误差:缺失数据
响应误差:收的结果不一定正确、完整
3、数据的描述:图和表
数据的可视化
图优性:
是指图能够在最短的时间内:用最少的笔墨,在最小的空间内,给观众最多的思想
数据分析通常包括下列三种中的一种或多种:
(1) 图
(2) 表
(3) 计算
分类变量:观测值不能被排序。
饼图或条形图
度量变量:值可以用数值表示
点图和直方图,箱型图,茎叶图,时间序列图,点线图等
箱形图:
双峰:直方图有两个顶峰,这告诉我们数值存在两极化
表用于两种广泛的目的:
(1) 一种是伴随文章以支持其中的观点
(2) 组织数据
图与表的选择:如果精准数字很重要,那么表比图好;想对数据有一个较快的印象,图就比表好。
4、数据的描述:计算汇总统计量
集中趋势的衡量(均值、中位数、众数)
二众数分布:一个变量有两个值经常出现
差异的衡量(标准差和方差)
汇总值有一个主要的有点和缺点:
优点:汇总值会使数据高度的简单化
缺点:任何的简单化都意味着某些数据的丢失
极差:最大值-最小值(缺点是对极端值非常敏感)
标准差:重要的偏差,是到均值的一种平均距离
标准差&标准误差
由原始观察值算出的叫做标准差,由一组均值算出的叫做标准误差
标准误差:是很多不同样本的均值的标准差
均值的标准误差要比观察值的标准差小,这是因为均值的变化程度要比观察值的变化程度小
5、概率
四个主要理论统计量:z t X2 F
P值意味着什么和人们怎样基于事件发生的概率来对数据做出决策这样问题为假设检验提供了舞台。
二项分布:只两种结果
Poisson分布:小概率事件,例如无安打比赛
超几何分布:当样本很少时,能用与分析两个分类变量
Z分布:标准正太分布(钟形分布),均值为0,标准差为1,钟型,中点两边各有50%的观察值,曲线下面有95%的面积在-1.96到1.96之间
T分布:与z分布曲线基本一致,但是正太分布的中部较高,T分布在水平轴上的收敛不像正太分布那么快。这个区别表明T分布在其均值周围的聚集程度要比正太分布要差一些
T分布的自由度越大,T分布曲线越接近正太分布,在自由度50时这两条曲线就几乎相同
自由度: 不同自由度有不同的分布
正态分布和t分布区分:
区别的方法是将两种分布的曲线重叠在一张图中,这两个曲线的基本形状相同,但是正态分布的中部比较高,他分布在水平的收敛不像正态分布那么快。这个区别表明t分布在其均值周围的聚集程度 比正态分布要差一些。
T分布的自由度越大,则该t分布的曲线就越接近正态分布,在自由度等于50时这两种曲线就几乎相同了。
正态分布是与自由度无关的曲线。
X2分布:分布是偏斜的,非对称的,非负的
F分布:也是非负的,F取值大部分在0-5之间变化
注意:t X2 F变量都是从z变量中衍生出来的,所以使用这三种变量时,都已经事先假定了数据服从正太分布
P值:是在有关总体的某些假设下,观察值或更极端值出现的概率。
α显著性水平:检验统计量落在拒绝域内的概率(即拒绝零假设的概率)
若P<=α,则拒绝零假设
α一般取的很小,说明拒绝它的概率很小,但得到的P值比阿尔法还小,所以认为假设不正确。
α通常选0.05,显著水平是0.05的意思是:在零假设正确的情况下进行1000次抽样,会有5次错误拒绝了零假设。
6、做出结论:估计
辨明了样本统计量与总体参数之间的差别和从样本统计量中估计参数的方法。
点估计——》无偏估计&有偏估计
无偏估计:统计量的均值等于总体参数的真值
区间估计:是用于参数估计值的一个范围,一个区间比一个单值能提供更多的信息
7、做出结论:假设检验
零假设&备择假设
零假设:通过一个或多个参数来表示的;而且他设定这些参数等于某个特殊值
H0零假设 H1备择假设
一般吧要验证的问题作为H0,然后验证H1
因为H1有严格的检验
第一类错误(α错误):零假设正确时却认为他错了
拒绝H0|H0为真|、,弃真错误
第二类错误(β错误):零假设错误却认为他对了
拒绝H0|H0为假,取伪错误
当数据导致拒绝零假设时,这个经验就是统计显著的,换句话说,当P值很小,经验结果就是统计显著的
自由度:观测个数的概念抽象,并记为DF
8、变量间的关系
对于问题一:考量样本数据的模式,如果发现某种关系,则提出问题二
对于问题二:计算变量之间关系的强度
对于问题三:建立一个变量之间没有关系的零假设并检验这个假设看是否拒绝它
问题四:两个变量之间
9、两个分类变量的X2分析
10、两个数值型变量的回归分析和相关分析
散点图表明变量之间是正相关还是负相关,相关洗漱室衡量关系的强度