1.数理统计的基本概念
总体:研究对象的全体(X)
个体:组成总体的每个基本单元
样本:从总体中抽取的一部分个体()
简单随机样本:具有随机性和独立性的样本,即样本相互独立具有同一分布
样本的两重性:抽样前是随机变量,抽样后是具体的数
统计量:样本的函数,不含有任何未知参数
抽样分布:统计量的分布
2.常用的统计量
样本均值:用来估计总体均值和对对有关总体均值的假设做检验
样本方差:用来估计总体方差和对有关总体方差的假设做检验
样本k阶原点矩:用来估计总体k阶原点矩
样本k阶中心矩:用来估计总体k阶中心矩
顺序统计量:可以构成经验分布函数,在中心极限定理、大数定律、格利汶科定理等大样本性质保证下,对总体分布进行估计
3.数据集中趋势的度量
在对称分布时,样本均值、中位数、众数相同。
Python求均值、中位数、众数:
4.数据离散趋势的度量
方差:计算每个观察值与全体样本值的平均数之差的平方的平均数
极差:数据越分散极差越大
变异系数:刻画数据相对分散性的一种度量。当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大或数据量纲不同,变异系数可以消除测量尺度和量纲的影响。
四分位差:样本上下四分位数之差。它是度量样本分散性的重要数字特征,特别对于具有异常值的数据。
Python求方差、标准差、变异系数:
5.正态分布的原则
原则:数值分布在(μ-σ,μ+σ)中的概率为du0.6526
原则:数值分布在(μ-2σ,μ+2σ)中的概率为0.9544
原则:数值分布在(μ-3σ,μ+3σ)中的概率为0.9974
由于“小概率事件”和假设检验的基本思想 “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。
由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件是不会发生的,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的“3σ”原则。
6.偏度与峰度
偏度:数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。
峰度:分布曲线在平均值处峰值高低的特征数,峰度反映了峰部的尖度。峰度刻画的是分布函数的集中和分散程度。