前言
知识需要积累,学习也要总结。对于数据科学的而言,统计学发挥着越来越多的作用,大英百科全书是这么定义统计学的:“一门收集数据、分析数据,并根据数据进行推断的艺术和科学”。本文针对统计学的基础描述性统计量,进行小结以加深印象。
描述性统计量
为了解决某个问题,我们通常会观察一组和该问题相关的样本,利用总体中的部分样本来推断总体的情况进而得到相关结论。在通过样本推断总体前,首先需用对已有样本数据进行简单的评估和描述,针对这一需求也就引出了描述统计量这一概念。进行描述性统计时,我们最关注数据两个层面的问题:数据的集中趋势和变异分散性。
- 数据的集中趋势
统计学中常用平均数来描述一组变量值的集中位置或平均水平。常用的统计量指标有算数均值、几何均值、中位数和众数。
1.均值
算术均值:即为均值,用以反映一组呈对称分布的变量值在数量上的平均水平。
几何均值:常用以反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。
2.中位数:将数据从小到大进行排序,其中在数据集中有一半数据高于这个值,一半低于这个值。
3.众数:数据集中出现次数最多的类别或值。 - 数据的离散程度
有这样一种情形,有一组数据值很集中,我们使用均值就可以反映该组数据的集中位置,但有的数据资料很分散,这时均数不能很好的代表整组数据的特征,也就是说,集中趋势和离散趋势相结合才能更好的描述数据分布的特点。常用的用来描述数据离散程度的统计量指标有极值、分位数、方差和标准差等。
1.极差:数据集中最大值和最小值的差值。
2.分位数:又叫分位点,指的是将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数,四分位数,百分位数。其中四分位数表示第75%位数和第25%位数间的差值;百分位数表示一个数据集中,P%的值小于或等于第P百分位数。
3.方差和标准差:对于一组有n个数值的数据集,方差是对距离均值的偏差平方后求和,再除以n-1。方差的平方根称之为标准差。