定义
统计学是在数据分析的基础上,研究测定、收集、整理、归纳和分析反映数据数据,以便给出正确消息的科学。
譬如自一组数据中,可以摘要并且描述这份数据的集中和离散情形,这个用法称作为描述统计学。另外,观察者以数据的形态,创建出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体,这种用法被称做推论统计学。这两种用法都可以被称作为应用统计学。数理统计学则是讨论背后的理论基础的学科。
一些关键字
样本(Sample)
样本(Sample)是统计学术语,指从全体中随机抽取的个体。通过对样本的调查,可以大概的了解全体的情况。抽样时抽取样本来进行调查,而普查时则需要调查每一个个体。
总体
统计总体又称调查总体,简称为总体,是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体。构成总体的这些个别单位称为总体单位。
样本是从总体中抽取出来的,作为总体的代表,由部分单位组成的集合体。在抽样推断中,总体又称为母体,相应的,样本又称为子样。抽取样本应注意以下几个问题:
1.样本的单位必须取自总体
2.一个总体可以抽取多个样本
3.确保样本的客观性与代表性
平均数(Mean,或称平均值)
中位数(Median,又称中值)
代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,则中位数不唯一,通常取最中间的两个数值的平均数作为中位数。
众数(mode)
众数(mode)指一组数据中出现次数最多的数据值。例如{2,3,3,3}中,出现最多的是3,因此众数是3,众数可能是一个数,但也可能是多个数。
在离散概率分布中,众数是指概率质量函数有最大值的数据,也就是最容易取様到的数据。在连续概率分布中,众数是指机率密度函数有最大值的数据,也就是机率密度函数的峰值。
四分位距(interquartile range, IQR)
确定第三四分位数和第一四分位数的差。
异常值是1.5倍的IQR。左侧就是Q1 - 1.5*(IQR),右侧就是Q3+1.5IQR
总体方差,样本方差 (Variance),标准差,样本标准差(Standard Deviation,缩写SD,σ(sigma))
总体方差和标准差:一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的距离。这里把复杂说白了,就是将各个误差将之平方(而非取绝对值,使之肯定为正数),相加之后再除以总数,透过这样的方式来算出各个数据分布、零散(相对中心点)的程度。继续延伸的话,方差的算术平方根称为该随机变量的标准差(此为相对各个数据点间)。
标准差有重大意义,大约有68%的数据与平均值的偏差不超过一个标准差,大约95%的数据与平均值不超过两个标准差
样本方差和样本标准差:
先求出总体各单位变量值与其算术平均数的离差的平方,然后再对此变量取平均数,就叫做样本方差。样本方差用来表示一列数的变异程度。样本均值又叫样本均数。即为样本的均值。
样本方差的算术平方根称为该随机样本变量的标准差(此为相对各个数据点间)。
总体方差和样本方差计算公式:
为什么样本的分母是n-1
n-1的使用称为贝塞尔校正(Bessel's correction),目的是为了让样本方差的估计是无偏的。
至于为什么n-1就能使样本方差无偏,请看这里和这里.
标准误差(Standard Error)
描述对应的样本统计量抽样分布的离散程度及衡量对应样本统计量抽样误差大小的尺度。
置信区间(Confidence interval,CI)
在统计学中,一个概率样本的置信区间(Confidence interval,CI),是对这个样本的某个总体参数的区间估计。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%,60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)
自由度(degree of freedom, df)
是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数,称为该统计量的自由度。
学生t检验(Student's t-test 简称t-test)
学生t检验常作为检验一群来自常态分配母体的独立样本之期望值的是否为某一实数,或是二群来自常态分配母体的独立样本之期望值的差是否为某一实数。举个简单的例子,也就是说我们可以在抓取一个班级的男生,去比较该班与全校男生之身高差异程度是不是推测的那样,或是不同年级班上的男生身高的差异的场合是否一如预期使用此检验法。
最常用t检验的情况有:
- 单样本检验:检验一个正态分布的总体的均值是否在满足零假设的值之内,例如检验一群军校男生的身高的平均是否符合全国标准的170公分界线。
- 双样本检验:其零假设为两个正态分布的总体的均值之差为某实数,例如检验二群人的身高之平均是否相等。这一检验通常被称为学生t检验。但更为严格地说,只有两个总体的方差是相等的情况下,才称为学生t检验;否则,有时被称为Welch检验。以上谈到的检验一般被称作“未配对”或“独立样本”t检验,我们特别是在两个被检验的样本没有重叠部分时用到这种检验方式。
- “配对”或者“重复测量”t检验:检验同一统计量的两次测量值之间的差异是否为零。举例来说,我们测量一位病人接受治疗前和治疗后的肿瘤尺寸大小。如果治疗是有效的,我们可以推定多数病人接受治疗后,肿瘤尺寸应该是变小了。
-
检验一条回归线的斜率是否显著不为零。
T-table
Z检验(Z Test)
Z检验(Z Test)是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。在国内也被称作u检验。
Z-Test 步骤
第一步:建立虚无假设,即先假定两个平均数之间没有显著差异。
第二步:计算统计量Z值,对于不同类型的问题选用不同的统计量计算方法。
1、如果检验一个样本平均数x与一个已知的总体平均数μ的差异是否显著。其Z值计算公式为:
其中:
x是检验样本的平均数;
μ是已知总体的平均数;
S是总体的标准差;
n是样本容量。
2、如果检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著。其Z值计算公式为:
其中:
X1,X2是样本1,样本2的平均数;
S1,S2是样本1,样本2的标准差;
n1,n2是样本1,样本2的容量。
第三步:比较计算所得Z值与理论Z值,推断发生的概率,依据Z值与差异显著性关系表作出判断。如下表所示:
Z | P值 | 差异程度 |
---|---|---|
>2.58 | <0.01 | 非常显著 |
>1.96 | <0.05 | 显著 |
<1.96 | >0.05 | 不显著 |
第四步:根据是以上分析,结合具体情况,作出结论。
Z分数(z-score)
Z分数也叫标准分数(standard score)是一个数与平均数的差再除以标准差的过程。在统计学中,标准分数是一个观测或数据点的值高于被观测值或测量值的平均值的标准偏差的符号数。z分数可以回答这样一个问题:"一个给定分数距离平均数多少个标准差?"在平均数之上的分数会得到一个正的标准分数,在平均数之下的分数会得到一个负的标准分数。 z分数是一种可以看出某分数在分布中相对位置的方法。
例子