正式进入了数据分析师的学习,第一周主要是讲一些统计学的知识。虽然在大学里学过统计学,但是在学习过程中还是发现自己有些地方要么忘了,要么根本就没听进去,学的还是比较浅。这篇文章会记录一下我在这个课程中新学到的,或者巩固的统计学知识。
1. Define Outlier
Outlier < Q1 - 1.5(IQR) or > Q3 + 1.5(IQR)
IQR = Q3 - Q1
2. Match Boxplots
注意在Match boxplots(箱图)中,"min" and "max" in this context mean the smallest and largest values from the sample that are not outliers.
3. Bessel Correction
样本方差除以n-1,叫做Bessel's correction,是为了可以修正样本的variance,更精确描述样本空间,因为在sample中大多数都落在中央(之前大学学统计的时候只是死记硬背要-1
4. Sample distribution
今天重温(学习)了样本均值抽样分布的知识,我才发现样本抽样原来是这个回事。
设总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有N·n 种抽法,即可以组成N·n不同的样本,在不重复抽样时,共有N·n个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明:
在重置抽样时,样本均值的方差为总体方差的1/n
老师用了一个非常生动的例子:他们搞了48盆MM豆,然后计算出每盆有几个蓝色的MM豆,48个数据构成了population。然后他们随机选择五盆,计算五盆的平均数,然后反复进行了50次。这就是n为5的样本均值抽样。
5. Hypothesis testing
这块内容还是蛮熟的,有两道题注意下。
第一题考察的一些概念还是比较容易混淆,第一题第二题不会搞错,第三题即使z大于3.00还是要看阿尔法值给到了多少才能确定。最后两题其实是差不多的,n变大,样本标准差变小,整个范围缩小,有利于detected到,同样的总体样本标准差变大,范围变大,难以detected到。
第二题再注意下,第一点当没有告诉你阿尔法值得时候,我们默认是0.05。第二点,我们这里的零假设是training technique will note increase their speeds, alternate hypothesis就是increase their speeds. 这个是单尾左侧的检验,所以0.05对应得Z-score应该是-1.645(查表所得),而我们的-1.91大于这个数字,所以拒绝原假设,所以训练技术是有效果的,选择faster,至于为什么是significantly,因为-1.91所对应的p值(probability)远小于0.05,所以是显著的。
关于零假设和备选假设的问题
其实这个问题也困绕了我很久,大学的时候一直没有想明白,为什么H0和Ha不能随意更换位子呢?这个说法有这么几种,我觉得还是比较靠谱:
1.一是我们的“拒绝”和“接受”原假设,不是逻辑上的对与错;二是我们“拒绝”原假设和“接受”原假设是完全不对等的,当我们拒绝原假设的时候,我们有95%的把握;但是当我们接受原假设的时候,我们一点把握都没有.由此可知当我们选择原假设的时候,应该选择我们有比较大的把握否定它的一面.这里有个例子:
比如说要推广一种新药,如果原假设是该药可靠,那只有很不可靠的时候才会拒绝。但若原假设是该药不可靠,只有很可靠的时候才会拒绝。在这个具体问题中,推广新药必须要很可靠才行,所以一般会把原假设定为该药不可靠。再说仔细一些,一般取置信区间为0.05,也就是说只有当原假设前提下5%的小概率事件发生时,才会拒绝原假设。
2.The null hypothesis is simply a starting point, and may not be backed up by evidence or confidence. You have to think about the following question: "if nothing happens, which hypothesis will be true?" That is going to be the null hypothesis. Usually, when we have very little or no evidence, the null hypothesis is equivalent to zero change/difference.(这个解释是,零假设一般是源自如果什么都不做,不会发生的一种情况,比如我们用了一款营销工具,考察他的效果,我们一般零假设就是什么效果都没有)
6. cohen's d的计算
cohen's d 的意识是标准化的均值差异,计算方式即为,x拔减去μ,再除以样本的标准偏差。(注意了,不是标准误差!!!如果是标准误差的话就变成计算t的统计量了!)
7. r^2的计算
r2表示两个变量之间的关系程度,计算方式是t2 / (t^2 + df)
8.合并方差
不是独立样本的时候,因为自由度也一样,合并计算standard error:
当独立样本的检验的时候,方差用合并方差计算: