这一部分的内容是后续所有算法的基础的基础。就是我们常说的各种检验,例如:t检验,Z检验,F检验,卡方检验等等。这些检验目的是告诉我们可以接受原假设的概率有多大。之所以会有这么多检验方法,是因为现实世界太复杂,数据分析也会遇到各式各样的难题,解决不同的难题可能需要不同的工具。
如果我们的变量是连续型指标,那么使用t-检验来描述均值之间的差异。
假如说,当下我们有两块小麦地,我们希望对两块小麦的产量进行比较,看是否不同的土地的产量相同。当然,我们不希望要把这两块地所有的小麦收割下来进行比较,希望能够简单一点,轻松一点,仅仅是分别采集两块地一小部分的小麦进行比较。
我们将两块地的样本产量分别进行可视化表示。
首先,我们从均值的角度入手,来对比两个分布的差异。然而均值仅仅是一个切面的信息,数据的分布可能形态各异,均值本身并不能代表全部的信息分布。例如如下的第二张和第三张截图,可以想象第二张图数据集中性程度相比较第三张要分散的开(离散程度高),那么同样的均值,第二张分布的均值对于整体数据的代表程度要低于第三张图。
此刻,我们可以进一步思考,如果均值代表了不同数据分布差异的时候,其数据的离散程度就代表了均值不能解释的部分,或者称为噪音。通过两者相除的方式,就产生了如下的t值计算公式。
这里,我们可以看到如果t值越大,那么代表了两个分布的差异也许会越大,那么多大代表着最够大呢?于是,我们需要在这里引入一个标准来衡量t值,这时候就是我们p值登场的地方了,p值怎么理解,详见《p值等同于概率么》这篇文章。每一个t值都会有一个p值,p值越小,代表没有足够的理由去接受原假设。
而t检验与z检验的不同就在于样本量与是否得知整体方差,t检验适用于小于30的样本量,不知道整体分布方差的情况,z检验反之。