P1:STATISTICS

正式进入了数据分析师的学习,第一周主要是讲一些统计学的知识。虽然在大学里学过统计学,但是在学习过程中还是发现自己有些地方要么忘了,要么根本就没听进去,学的还是比较浅。这篇文章会记录一下我在这个课程中新学到的,或者巩固的统计学知识。

1. Define Outlier
Outlier < Q1 - 1.5(IQR) or > Q3 + 1.5(IQR)
IQR = Q3 - Q1

2. Match Boxplots
注意在Match boxplots(箱图)中,"min" and "max" in this context mean the smallest and largest values from the sample that are not outliers.

Match Boxplots

3. Bessel Correction
样本方差除以n-1,叫做Bessel's correction,是为了可以修正样本的variance,更精确描述样本空间,因为在sample中大多数都落在中央(之前大学学统计的时候只是死记硬背要-1

4. Sample distribution
今天重温(学习)了样本均值抽样分布的知识,我才发现样本抽样原来是这个回事。

设总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有N·n 种抽法,即可以组成N·n不同的样本,在不重复抽样时,共有N·n个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明:
在重置抽样时,样本均值的方差为总体方差的1/n

老师用了一个非常生动的例子:他们搞了48盆MM豆,然后计算出每盆有几个蓝色的MM豆,48个数据构成了population。然后他们随机选择五盆,计算五盆的平均数,然后反复进行了50次。这就是n为5的样本均值抽样。

5. Hypothesis testing
这块内容还是蛮熟的,有两道题注意下。

第一题

第一题考察的一些概念还是比较容易混淆,第一题第二题不会搞错,第三题即使z大于3.00还是要看阿尔法值给到了多少才能确定。最后两题其实是差不多的,n变大,样本标准差变小,整个范围缩小,有利于detected到,同样的总体样本标准差变大,范围变大,难以detected到。

第二题

第二题再注意下,第一点当没有告诉你阿尔法值得时候,我们默认是0.05。第二点,我们这里的零假设是training technique will note increase their speeds, alternate hypothesis就是increase their speeds. 这个是单尾左侧的检验,所以0.05对应得Z-score应该是-1.645(查表所得),而我们的-1.91大于这个数字,所以拒绝原假设,所以训练技术是有效果的,选择faster,至于为什么是significantly,因为-1.91所对应的p值(probability)远小于0.05,所以是显著的。

关于零假设和备选假设的问题
其实这个问题也困绕了我很久,大学的时候一直没有想明白,为什么H0和Ha不能随意更换位子呢?这个说法有这么几种,我觉得还是比较靠谱:

1.一是我们的“拒绝”和“接受”原假设,不是逻辑上的对与错;二是我们“拒绝”原假设和“接受”原假设是完全不对等的,当我们拒绝原假设的时候,我们有95%的把握;但是当我们接受原假设的时候,我们一点把握都没有.由此可知当我们选择原假设的时候,应该选择我们有比较大的把握否定它的一面.这里有个例子:

比如说要推广一种新药,如果原假设是该药可靠,那只有很不可靠的时候才会拒绝。但若原假设是该药不可靠,只有很可靠的时候才会拒绝。在这个具体问题中,推广新药必须要很可靠才行,所以一般会把原假设定为该药不可靠。再说仔细一些,一般取置信区间为0.05,也就是说只有当原假设前提下5%的小概率事件发生时,才会拒绝原假设。

2.The null hypothesis is simply a starting point, and may not be backed up by evidence or confidence. You have to think about the following question: "if nothing happens, which hypothesis will be true?" That is going to be the null hypothesis. Usually, when we have very little or no evidence, the null hypothesis is equivalent to zero change/difference.(这个解释是,零假设一般是源自如果什么都不做,不会发生的一种情况,比如我们用了一款营销工具,考察他的效果,我们一般零假设就是什么效果都没有)

6. cohen's d的计算
cohen's d 的意识是标准化的均值差异,计算方式即为,x拔减去μ,再除以样本的标准偏差。(注意了,不是标准误差!!!如果是标准误差的话就变成计算t的统计量了!)

7. r^2的计算
r2表示两个变量之间的关系程度,计算方式是t2 / (t^2 + df)

8.合并方差
不是独立样本的时候,因为自由度也一样,合并计算standard error:

Paste_Image.png

当独立样本的检验的时候,方差用合并方差计算:


Pooled variance

Standard error
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容