第一次学统计学是在大学,当时没有什么感知,第二次学统计学是在研究生的时候,又结合了SPSS实战,对统计学就有了更深的认识。毕业后第一份工作就是市场调研写统计分析报告,和统计结下了不解之缘。后面做数据分析,一直和数据打交道。这次参加居士的学习班,再次重温统计学,重新当一回学生,感谢居士提供的平台!
统计学含义:通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。
统计学推荐书目:《深入浅出统计学》、《人人都会数据分析》
关于数据的描述,给出一组数据,有哪些不同的维度可以描述?
1、集中趋势
数据的集中趋势,从字面的理解即反映数据的集中程度,那么我们就需要寻找到反映事物特征的数据集合的代表值,这个代表值可以较好的反映事物目前所处的位置和发展水平,通过多次的测量和比较,还能说明事物的发展和变化趋势。
1)平均数
平均数比较容易受到极端值的影响,平均数的使用也要注意,有时候具有很大的欺骗性。
*算数平均数:算数平均数是最常用,最典型的指标了,我们平常说的平均数就是算数平均数,计算方法也很简单,全部数相加除以个数。算数平均数可以看作是加权平均值在所有数的权相等时的特殊情况。
*加权平均值:在一组数据中,有时并不是所有数据都同等重要,因此需要用加权平均值来反映数据的集中趋势。
*几何平均值:当一些数据之间的关系为乘除关系时,我们就需要用到几何平均值了。
2)中位数
中位数,又称中点数,中值。中位数是按顺序排列的一组数据中居于中间位置的数。中位数与算数平均值相比,中位数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点。这一特点使其在数据集合的数值分布有较大偏斜时,能够保持对数据集合特征的代表性。因此,中位数常被用来度量具有偏斜性质的数据集合的集中趋势。
3)众数
众数是指在数据集合中出现次数最多的数值。如果一个数据集合中,只有一个数值出现最多,那么这个数值就是该数据集合的众数。一组数据中,众数有可能没有,也有可能有多个。
4) 分位数
分位数是指用分割点将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。常见的有中位数(即二分位数)、四分位数、十分位数、百分位数等。
四分位数与中位数类似,对于一组数据,将所有数据按照大小顺序从低到高排列,并分成四等份,处于三个分割点位置的数值就时四分位数。
2、离中趋势
数值型数据的离中趋势指标有极差,平均差,方差和标准差,极差等。
1)极差:极差用于查看数据集合的离散和集中程度,又称为全距,是指数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离(范围)。
2)平均差:平均差度量的是数据集合中各个数据与算术平均值之间的偏离,各个数据与算术平均值的偏差的绝对值之和,再求平均,即为平均差。对于任意一个数据集合,表示其离散程度的一种容易想到的度量方式就是与算数平均值的偏离,平均差就是这样一种度量指标。
3)方差和标准差:在统计学中,一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的距离,方差利用平方消除了离差和等于0的问题,与平均差的绝对值有异曲同工之妙。但方差的局限性是,方差夸大了数据集合的离散程度。
3、数据的分布形态
数据的三个描述维度是数据的分布形态,通过分布形态可以比较形象观察数据。而数据的分布形态中正态分布是最常用的,但实际上,数据的分布形态各异。为了衡量数据分布与正态分布的偏离程度,就引入了偏态和峰态的概念,它们对应的指标分别为偏态系数和峰态系数。
1)偏度系数:偏度是描述变量取值分布对称性的统计量,通过偏度系数来测量数据分布的不对称程度以及方向。例如正态分布就是对称分布,它的均值、中位数和众数将重合。若以均值为参考点,位于均值左侧的数据较多,长尾拖在右侧,称为右偏分布,此时中位数小于平均数;若位于均值右侧数据较多,则长尾拖在左侧,称为左偏分布,此时平均数小于中位数。
2)峰度系数:峰度系数是描述数据分布陡峭或平滑的指标。有时两组数据的算术平均数、标准差和偏态系数都相同,但他们分布曲线顶端的高耸程度却不同。