描述性统计
描述性统计是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统计值来表示一组数据地集中性和离散型(波动性大小)。
通过根据随机变量的分布状况、可以分为离散概率和连续概率。
连续概率
- 概率为某个区间存在的所有实数
- 所有可能的取值不可能逐个列举出来
Example
新建一座大楼,半年后的工程完成百分比(0 <x < 100)
我们通常用集中趋势、离散程度、分布形态去描述一组样本数据。
1. 频数分布表
将一组计量资料按观察值大小分为不同组段,然后将各观察值归纳到各组段中,最后清点各组段的观察值个数(称频数),以表格形式表示之,称为频数分布表又称"频次分布表",简称“频数表”
转化为频次直方图
用途
- 描述资料的分布特征和分布类型
- 发现特大、特小的可疑值
2. 集中趋势指标
在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。
2.1 平均数(Mean)
根据应用场景又可以分为
算术平均数 使用场景十分广泛、很容易受极值影响
加权平均数 根据权重比例来求平均值。金融场景中算月销售额时候可以根据项目的天数来做权重求平均销售额。
几何平均数 常用于比例速度等场景,金融用得比较多
2.2 中位数(Median)
对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数
Example
在描述公司内的平均工资情况、或者金融客户的平均购买金额情况时比平均值更接近事实
2.3 众数(Mode)
在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。 修正定义:是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。用 M 表示。 理性理解:简单的说,就是一组数据中占比例最多的那个数。
Example
例如:1,2,3,3,4的众数是3。
例如:1,2,2,3,3,4的众数是2和3。
例如:1,2,3,4,5则没有众数。
众数算出来是销售最常用的,代表销售的最多
3.离散趋势
在统计学上描述观测值偏离中心位置的趋势,反映了所有观测值偏离中心的分布情况
3.1 极差,全距 (Range)
极差又称范围误差或全距(Range),以R表示,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距,即最大值减最小值后所得之数据.
3.2 方差(variance)
variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。
当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。
3.3 标准差(Standard Deviation)
标准差 ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同
由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。
在统计学中样本的均差多是除以自由度n,它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。
当标准差来描述本组样本离散程度时,分母为n,当标准差通过样本来描述总体离散情况时,分母选用n-1
3.4 变异系数(Coefficient of Variation)
变异系数:当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的比。CV没有量纲,这样就可以进行客观比较了。事实上,可以认为变异系数和极差、标准差和方差一样,都是反映数据离散程度的绝对值。其数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响。
变异系数的计算公式为:变异系数 C·V =( 标准偏差 SD / 平均值Mean )× 100%
在进行数据统计分析时,如果变异系数大于15%,则要考虑该数据可能不正常,应该剔除。
3.5 位次指标
四分位数(Quartile)是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)
3.6 箱线图(Box plot)
"盒式图"或叫"盒须图""箱形图"boxplot(也称箱须图(Box-whiskerPlot)须图又称为箱形图,其绘制须使用常用的统计量,能提供有关数据位置和分散情况的关键信息,尤其在比较不同的母体数据时更可表现其差异。
四分位间距(interquartile range)={\displaystyle Q3-Q1}=2 (即ΔQ)
在区间 Q3+1.5ΔQ, Q1-1.5ΔQ 之外的值被视为应忽略(farout)。
farout: 在图上不予显示,仅标注一个符号∇。
最大值区间: Q3+1.5ΔQ
最小值区间: Q1-1.5ΔQ
最大值与最小值产生于这个区间。区间外的值被视为outlier显示在图上.
4. 分布形态
我一般用户峰值和偏度来描述分布的形态
4.1峰值(kurtosis)
表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。
峰度以bk表示,Xi是样本测定值,Xbar是样本n次测定值的平均值,s为样本标准差。正态分布的峰度为3。以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度,若bk<3,则称分布具有不足的峰度,若bk>3,则称分布具有过度的峰度。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性
4.2 偏度(stewness)
表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。
两侧尾部长度对称。若以bs表示偏度。bs<0称分布具有负偏离,也称左偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长;bs>0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而bs接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。