抽样采集数据:概率抽样和非概率抽样
概率抽样也称为随机抽样,是指遵守随机原则进行的抽样,总体中每个单位都有一定的机会被选进样本。它有如下特点:
- 抽样是按照一定概率以随机原则抽取样本
- 每个单位被抽中的概率是已知的,或是可以计算出的
- 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率
概率抽样和等概率抽样是两个概念,概率抽样,单位之间被抽中的概率可以相等可以不等
非概率抽样
数据误差
数据误差分两类:抽样误差和非抽样误差
抽样误差是由抽样的随机性引起的样本结果于总体真值之间的误差。在概率抽样中,我们依据随机原则抽取样本,可能抽中由这样一些单位组成的样本,也可能抽中又另外一些单位组成的样本。不同的样本可以得到不同的观测结果。
例如,检测一批产品的非优质品率,随机抽出一个样本,样本由若干个产品组成,通过检测得到的非优质品率为30%。如果我们再抽取一个产品数量相同的样本,检测结果很可能不是30%。不同的样本得到不同的结果。但是我们知道总体的真实值只能有一个。我们虽然不知道真值是多少,但是我们如果不断的增加样本量,不同的答案会先总体真值逼近,经过多次抽样,得到多个不同样本的检测结果,就会发现这些结果的分布是有规律的。例如如果总体的真正的非优质品率是30%,那么大部分的样本结果会落在27.2%~32.8%之间。在总体的真值30%为中心,与95%的样本结果在正负2.8%的误差范围内波动。这个正负2.8%是由抽样的随机性带来的,我们把这个误差称为抽样误差。
抽样误差的大小与多方面因素有关,最明显的是样本量的大小,样本量越大,抽样误差就与越小
相对位置的度量
测度每个数据在该组数据中的相对位置,并可以用它判断一组数据是否有离群数据
标准分数 -- 变量值与其平均数的离差除以标准差后的值称为标准分数,也称为标准化值或z分数
-
经验法则
当一组数据对称分布时,经验法则表明- 约有68%的数据在平均数正负一倍标准差的范围内
- 约有95%的数据在平均数正负两倍标准差的范围内
- 约有99%的数据在平均数正负三倍标准差的范围内
在正负三倍标准差之外的数据在统计上称为离群点。
-
切比雪夫不等式
经验法则适用于对称分布的数据。如果一组数据不是对称分布,经验法则就不再适用,这时可以用切比雪夫不等式,它对任何形状的数据都适用。根据切比雪夫不等式,至少有(1-1/k^2)的数据落在正负k个标准差之内。其中k是大于1个任意值,不一定是整数。- 至少有75%的数据在平均数正负两倍标准差的范围之内。
- 至少有89%的数据在平均数正负三倍标准差的范围之内。
- 至少有94%的数据在平均数正负两四倍标准差的范围之内。
相对离散程度
对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接进行比较离散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。
离散系数也称为变异系数,它是一组数据的标准差与其对应的平均数之比。