《统计思维:程序员数学之概率统计》读书笔记

均值是为了描述集中趋势,而方差则是描述分散情况。

汇总统计量简单明了, 但风险也大, 因为它们很有可能会掩盖数据的真相。 另一种方法就是看数据的分布(distribution),它描述了各个值出现的频繁程度。 

表示分布最常用的方法是直方图(histogram),这种图用于展示各个值出现的频数或概率。直方图很有用,因为它可以非常直观地展现数据的以下特征。在数据量较大时,可以使用曲线图。

• 众数

分布中出现次数最多的值叫做众数,众数是最适合描述典型值的汇总统计量。

• 形状

以众数为中心,整个分布的形状是否对称,是否有奇异处,比如升降快慢、截断、突出尖刺等等,分析是否合理。

• 异常值

远离众数的值叫做异常值(outlier)。其中有些只是罕见情况,但有些很有可能是汇总或者记录数据的某个环节中的失误导致的。

如果你对数据的含义有基本认识,设计一个能展示直观效应的可视化方法通常会有所帮助。可以做一个变换,凸显数据的特征,比如,放大图形的某一部分、归一化处理,或者将数据从一个域变换到另一个域等等。

可以用相对风险(relative risk)来概括类似的数据,它代表两个概率的比值。例如。第一胎提前出生的概率是18.2%。非第一胎婴儿提前出生的概率是16.8%。因此相对风险就是1.08。这意味着第一胎较其他几胎更早出生的可能性有8。

平均数:是统计中最常用的数据代表值,比较可靠和稳定,因为它与每一个数据都有关,反映出来的信息最充分。平均数既可以描述一组数据本身的整体平均情况,也可以用来作为不同组数据比较的一个标准。因此,它在生活中应用最广泛,比如我们经常所说的平均成绩、平均身高、平均体重等。

中位数:作为一组数据的代表,可靠性比较差,因为它只利用了部分数据。但当一组数据的个别数据偏大或偏小时,用中位数来描述该组数据的集中趋势就比较合适。

众数:作为一组数据的代表,可靠性也比较差,因为它也只利用了部分数据。在一组数据中,如果个别数据有很大的变动,且某个数据出现的次数最多,此时用该数据(即众数)表示这组数据的“集中趋势”就比较适合。

平均数、中位数和众数的联系与区别: 

平均数应用比较广泛,它作为一组数据的代表,比较稳定、可靠。但平均数与一组数据中的所有数据都有关系,容易受极端数据的影响;简单的说就是表示这组数据的平均数。中位数在一组数据中的数值排序中处于中间的位置,人们由中位数可以对事物的大体进行判断和掌控,它虽然不受极端数据的影响,但可靠性比较差;所以中位数只是表示这组数据的一般情况。众数着眼对一组数据出现的频数的考察,它作为一组数据的代表,它不受极端数据的影响,其大小与一组数据中的部分数据有关,当一组数据中,如果个别数据有很大的变化,且某个数据出现的次数较多,此时用众数表示这组数据的集中趋势,比较合适,体现了整个数据的集中情况。 这三个统计量虽反映有所不同,但都可表示数据的集中趋势,都可作为数据一般水平的代表。应用时可以根据数据的特点进行选择,一般使用平均数,可以用中位数和众数作为辅助考察数据。

偏度(skewness)是度量分布函数不对称程度的统计量。样本偏度的定义为:

这里 m2 是均方离差(即方差),m3 是平均的立方离差。负的偏度表示分布向左偏(skews left),此时分布函数的左边会比右边延伸得更长;正的偏度表示分布函数向右偏。上述计算样本偏度的公式在实际应用中使用得并不多。 因为如果样本中存在异常值, 那么这些异常值可能对偏度的值产生非常大的影响。

另外一个评价分布函数非对称程度的方法是比较均值和中位数的大小。

皮尔逊中值偏度系数(Pearson’s median skewness coefficient)就是一个基于这种思想的偏度度量(其中μ为均值,μ1/2 为中位数):

g_{p}=3(\mu-\mu_{1/2})/\sigma

该统计量是偏度的一个鲁棒估计,它对异常值的影响不敏感。

假设检验(hypothesis testing)的逻辑类似于数学上的反证法:为了证明数学命题A是正确的,我们先假设A是错误的,如果基于这个假设得出了矛盾的结果,那么我们就证明了A是正确的。同样地,为了检验某个直观效应是否真实存在,我们首先假设这个效应不是真实存在的,即偶然造成的(原假设)。然后基于这个原假设计算出发生这种效应的概率(p 值)。如果p值非常小,我们就可以认为原假设不大可能是真的。

我们提到了一个问题:如何确定观测到的表观效应是否真实存在?我们是这样来处理的。首先,定义原假设(效应不存在)为H0,然后定义p值为 P(E|H0), 这里的E表示的是与表观效应相符以及比表观效应更显著的效应。 最后我们可以计算得到p值,并将其与阈值α作比较。一般说来有如下的几种解释:

• 古典解释

在古典的假设检验中,如果p值小于阈值α,那么我们可以说效应在统计学上是显著的,但是不能得到效应真实存在的结论。这种解释很谨慎,避免提到结论,但无法让人满意。

• 实际解释

在实际应用中,人们并没有像上述那样正式地处理假设检验。在绝大多数科学杂志中,研究者毫无节制地报道p值,读者也将它们作为表观效应真实存在的证据。p值越低,就越能使他们相信结论的正确性。

• 贝叶斯统计解释

实际上我们想知道的是 P(HA|E),这里HA是与H0相对的假设,即效应是真实存在的。由贝叶斯定理可得

P(H_{A}|E)=\frac{P(E|H_{A})P(H_{A})}{P(E)}

这里P(HA)是在我们观测到这个效应之前的先验概率。P(E|HA)是在HA成立的条件下观测到效应E的概率。P(E)是在任意情况下观测到效应E的概率。效应要么存在,要么不存在,所以这里P(E)可以表示为

P(E) = P(E|HA)P(HA) + P(E|H0)P(H0)

我们使用数据集来构建HA,然后再用同一个数据集进行检验。这并不是一个好方法,很容易产生错误结果。可以用交叉验证(cross-validation)的方法来解决这个问题:用一批数据来计算δ,然后再用另一批数据来计算 P(HA|E)。 第一批数据称为训练集(training set),第二批数据称为测试集(testing set)。

贝叶斯概率依赖于先验概率的指定,而人们在这个问题上往往很难达成一致,一些人因此对贝叶斯概率持反对态度。对那些坚持认为科学结果应是具有客观性和普遍性的人来说,贝叶斯概率的这种性质是他们无法接受的。

针对反对观点,下面是一种解释:在实际应用中,强有力的证据会降低先验概率的影响,所以即使人们初始指定的概率不同,最终的后验概率会倾向于收敛。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容

  • 《数据分析的统计基础》的读书笔记 作 者:经管之家、曹正凤 出版社:电子工业出版社 版 次:2015年2月第1...
    格式化_001阅读 9,400评论 1 58
  • 现在人们都说“520”这个数字代表着我爱你,在5月20日这一天,我参加了五莲县义工团组织的“感恩母亲、护蛋行动”的...
    张宏zh阅读 419评论 4 3
  • 人类从古到今生活有许多的变化。如现在的信息还有交通等等都发生了很多改变。 在信息上,人们以前用飞鸽传书。...
    环絮阅读 212评论 0 0
  • 心如沙漠 你在沙漠深处与我做伴 洒下一颗颗曼珠沙华的种子 拿出手中的萧 唤醒孤寂的花 春季润物 载着所有希望 给了...
    凉意眉阅读 306评论 0 2