一、统计学和生活的关系
工作和生活中都会有大量的随机现象出现。比如:同班同学毕业数年之后事业发展状况可以有很大差异;同样年龄性别,身高体重不同……
那什么叫做随机现象呢?
当一件事情只有一次或两次出现时,它的结局可能是未知的,但是当它反复重复出现的时候,它的结局就会出现一种规律,这就叫随机现象。人类社会绝大部分现象都是随机现象,所有随机现象的规律只在大量重复时才会体现,而统计学的任务就是找到随机现象的发生规律,从而将不确定性事件变为可估计、可预测的确定性结果。
二、统计学的基本概念
1、个体:个体是指统计分析根据研究目的所确定的最基本的研究对象单位,所以个体又称为观察单位
例:分析业务人员的报销费用,则人为观察单位
2、变量:根据研究目的确定研究对象,然后对研究对象的某项目的或研究指标进行观察(或测量),这种观察项目或研究指标称为变量(variable);
连续变量(continuous variable):也叫区间变量。取值范围是一个区间,可以在该区间中连续取值,并且一般有度量单位。例:身高、体重、金额
特点:有大小之分,各取值之间的间距明确
离散型变量(discrete variable):取值范围是有限个值或者一个序列构成的。
分类变量:表示分类情况的离散型变量又称为分类变量
有序分类变量:例:服务满意度(满意、一般、不满意)
特点:有大小之分,但是各类别间的间距大小不明。比如“高”和“中”之间的差距与“中”和“低”之间的差距我们无法判断相差多少
无序分类变量:例:血型(A、O)、民族(汗、满)
特点:无大小之分,仅知道属于不同类别
两分类变量(单独摘出):性别(男、女)
连续变量、有序变量、无需变量间的信息量越来越少,在丢弃一部分信息量的前提下,可以将变量向信息量减少的方向转换。类别超过5类的时候可以把类别编码做逆向转换。
3、变异:同质个体的某指标(变量)值的差异称为个体变异(individual variable)
统计学就是研究变异规律的学科,不存在变异的问题不属于统计学的研究范畴。或者说正是因为存在变异,才有了统计学的用武之地。
对于无变异的常量问题,或者严格的数学函数问题,并非统计学的应用领域。
4、总体(population):根据研究目的确定的同质所有个体某指标观察值(测量值)的集合。
有限总体(finite population):数量稳定
无限总体(infinite population):不知道数量,例:糖尿病人口 可能在随时发生变化
5、样本(sample):在一个较大范围的研究对象中随机抽出一部分个体进行观察或测量,这些个体的测量值构成的集合被称为样本。
6、随机抽样(random sampling):在抽样研究中随机抽出一部分个体进行观察或测量的过程称为随机抽样。
本质:每个个体最终是否入选在抽样进行前是不可知的,但是其入选可能性是确切可知的(多数情况下为等概率)
注意:随机 != 随便
7、统计量(statistic):刻画样本特征的统计指标称为统计量。(平均水平、离散程度)
8、总体参数(parameter):刻画总体特征的指标称为总体参数,例如总体中某个指标的个体变量值的平均数称为总体平均数。
9、推估:从样本的统计量回推总体参数。
10、抽样误差(simple error):许多总体指标是未知的,需要用相应的样本统计量对其进行估计。由随机抽样造成的样本统计量与总体指标之间的差异称为抽样误差。
11、随机事件:随机现象某个可能的观察结果称为一个随机事件。如:扔一次硬币正面朝上,这个结果就是一次随机事件。
12、频率(frequency):观察到的随机事件某个结局的出现频次/比例。
13、概率(probability):刻画随机事件发生可能性大小的指标,其取值介于0和1之间。不能被直接观察到,但可以通过频率估计,实验次数越多,估计约精确。
14、小概率事件:在统计学中,如果随机事件发生的概率小于或等于0.05,则认为是一个小概率事件,表示该事件在大多数情况下不会发生,并且一般认为小概率事件在一次随机抽样中不会发生,这就是小概率原理。小概率原理是统计推断的基础。
15、频数(Frequency):又称“次数”。指变量值中代表某种特征的数(标志值)出现的次数。按分组依次排列的频数构成频数数列,用来说明各组标志值对全体标志值所起作用的强度。各组频数的总和等于总体的全部单位数。频数的表示方法,既可以用表的形式,也可以用图形的形式
三、统计研究的基本步骤
1、研究设计:最关键的步骤
过程:选题->明确研究目的->提出假设->明确总体范围->确立观察指标->控制研究中的偏倚->给出具体的研究方案
2、收集数据
质量控制极为重要
Garbage in,Garbage out
3、整理数据:占用80%工作量,也就是IT中的数据清洗
4、分析数据
统计描述:了解样本数据的情况,是全部工作的基础,是尽量精确,直观而全面的对所获得的样本进行呈现
为了达到这一目的,需要使用一系列专门的统计描述指标
指标的呈现方式
统计图:精美、直观、但精确度稍差
统计报表:能尽量详细,精确,但不够直观
统计推断:从样本信息反推到总体,以最终获得所感兴趣问题的解答
参数估计:样本 -> 所在总体特征
例:该配件的日平均用量是多少?
假设检验:该指标可能的影响因素分析
例:和晴天相比,雨天的配件用量是否更低? 晴天、雨天就是影响因素