统计学习03：参数、统计量&标准误、置信区间

要点一：参数与统计量

参数(parameter)

描述总体(population)的概括性度量；
统计参数必须要在整体数据都可被观察的时候才能计算，通常由于数量过大而不便于统计计算；例如，一个完美的人口普查。
统计参数一般是固定的，但难以确定；
参数一般用希腊字母表示，例如总体均值μ、标准差σ

统计量(statistic)

描述样本(sample)的概括性度量；
一般根据统计量来估计总体参数，即为参数点估计；
样本统计量是可知的，但存在抽样误差；
统计量一般用英文字母表示，如样本均值x(头带一横线)，样本标准差S

parameter VS statistic

要点二：标准误差

Standard Error，简称标准误；用来衡量从总体的抽样误差大小。
标准误指的是多个样本统计量（一般均数）的标准差，反映了每次抽样样本之间的差异。
如SE小，说明多次重复抽样得到的统计量差别不大，即抽样误差比较小。
注意不要混淆标准误与标准差。
标准差是描述特定一组抽样数据的变异情况，即每次抽样都有一个标准差指标；
标准误是描述多组抽样情况(例如均值)间的差异情况，即多次抽样确定一个标准误。

SD VS SE
计算方法
理论上，需要多次抽样，得到一组均值数据，计算其标准差即可。
但实际上，大多手边只有一组样本数据。因此前人总结根据一次抽样数据，计算标准误的公式如下：

standard error

标准误可能举例更好理解：想要估计某校男生身高，分别随机抽取3组男生(每组10人)，每组计算的平均身高分别为170,180,165，则可认为抽样误差还是蛮大的。

要点三：置信区间

1、定义概念

Confidence interval，CI 是一种用区间来估计参数值的方法，一般常见的是均值
对于一个样本中计算的95%置信区间，含义可以理解为“有95%的信心认为该区间包含了总体参数”。
如上，95%称为置信系数：越大，则所得的区间越宽，结果越可靠，但精确度很差；越小，则相反。
例如，估计一个人的身高在(1m, 2m)区间内，很可信，但很不精确。
因此并不是95%置信区间就比70%置信区间显著，但目前95%置信区间应该最常见到。

2、计算方法

下面结合一个小例子，简单介绍下两种计算方法。

目的：根据从某校随机抽取的20名学生（一个样本）身高，来估计该所学校的学生的平均身高。（均值参数）

2.1 bootstrap自助法

利用bootstrap法计算置信区间的过程，可以对置信区间这个概念更为清楚。
过程如下
（1）从这20人中进行20次有放回的抽样，计算这次抽样的均值。（有放回的抽样就是指抽完一次后还放回去，带来最直接的结果就是抽样的20次中，可能多次抽到同一个学生）
（2）按照步骤1，进行1000轮循环（也可是其它数，但越多越好），就得到1000个均值；

bootstrap sample，有放回的抽样

（3）以这1000个均数为原始数据，计算寻找第2.5%和第97.5%的分位数，就组成95%置信区间。
如果计算90%置信区间，则计算出对应第5%和第95%的分位数，就组成了90%置信区间。

自助法在有些情况下有着长足的优势，比如像估计样本中位数的置信区间或者是两样本的中位数之差，而正态分布理论没有简单公式理论套用；或者潜在分布未知、出现离群点、样本量过下，或者没有可供选择的参数方法。自助法都是生成置信区间利器。

2.2 根据标准误计算

根据中心极限定理，多次抽样的统计量分布符合正态分布；
而上面提到的标准差是指样本统计量的标准差；
根据这两点，可以得出一般常见的置信区间表示形式：参数估计值±边际误差，公式见下图
结合到上面例子中，参数估计值就是20人身高的均值

CI by SE

边际误差为目标置信系数对应的Z值与数据标准误的乘积。例如95%置信系数，就是对应于正态分布中心线下95%面积的两个x坐标。

CI by SE

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342

统计学习03：参数、统计量&标准误、置信区间

要点一：参数与统计量

参数(parameter)

统计量(statistic)

要点二 ：标准误差

要点三 ：置信区间

1、定义概念

2、计算方法

2.1 bootstrap自助法

2.2 根据标准误计算

推荐阅读更多精彩内容

要点二：标准误差

要点三：置信区间