什么是统计学?在看这本书以前的我怕是听到这个词就要头疼,因为我并没有真正理解为什么要学统计学,所以也就没有学好统计学,非常合理的借口。在这本书里,作者由几个例子顺畅地引出描述统计、相关性、概率、黑天鹅、中心极限、假设检验等内容,让我大呼过瘾,我要早知道这些道理就会去认真学统计了(逃)
描述性统计。描述性统计的魅力在于,我们可以用一个数字或一个指标来帮助我们认识复杂的事物或复杂的全局。这种简化在带来方便的同时也带来了弊端——永远无法详尽、全面地展现某个东西。如:谁是NBA历史上最强的运动员?有人可能用场均得分、历史得分、总戒指数等等来衡量,但无一例外,这些单一的指标都没法说服所有人。这样美丽而不足的混合体,就是描述性统计。
统计数字会撒谎。马克吐温说过,世界上有三种谎言:谎言、该死的谎言和统计学。对于相同的数据,政客们会用不同的数字来为自己拉票,政客A:2012年6成的学校成绩下降了,我们的教育要改革! 政客B:我们的教育好着呢,2012年6成的学生成绩提升了!另一个统计学问题:经济全球化加剧了世界各国人民的贫富差距吗?回答一:是的,因为经济全球化以来,穷国更穷,富国更富。回答二:不是的,穷人相对来讲生活水平提高了!(比如中国和印度的飞速发展)。 这个统计学问题,其核心在于人!所以我更偏向于回答二。 如果有人滥用回答一,那也是一个谎言。
相关性与相关系数。相关系数作为描述性统计的一个儿子,他的美丽也在于讲两个变量的关联精炼成一个数字。当然,相关性不等于因果关系。Netflix为什么能给我推我想要的电影?因为他通过数据将我和其他有相似偏好的观影者联系了起来。
概率和期望。统计学家或许不玩橄榄球,也不和拉拉队长约会,但仍然可以为球队教练提供指导。赌场长时间一定赚钱;保险在统计角度讲是个傻交易;艾滋病检验的假阴假阳问题;某品牌举办品酒比赛,人数越多(100、1000),概率小于40%的可能性越低,微乎其微,用概率玩游戏玩人生,真的帅。
Monty Hall Problem. 两羊一车的故事,有意思,哈哈哈。
黑天鹅事件。VaR是08金融危机的罪魁祸首?一:模型构建的概率基础是08年之前的20年 二:即使99%保证控制风险,真正把模型、事情搞砸的还是那剩下的1%,这样的尾部风险常常被忽略。人们总以为,等出事的时候,筹点资金就行了。殊不知,陨石下落的时候人人都要买水。概率学要是使用得到,就能更好的辅助我们认识世界,要是使用不当,后果将不堪设想。借用美国枪支支持者的话:概率本身并没有错,错的是使用它的人。
数据与偏见。人口普查如何做到合理选择样本;上电台节目能给我打电话说反对我的人,不一定能代表大众的观点(自我选择);XX说,尼克松不可能赢,因为我的朋友没有一个支持尼克松的。(XX的自由派朋友圈因此可能会对整个美国民众的思想造成影响)(选择性偏见。)健康用户偏见:穿紫色睡衣的小孩会促进它的大脑发育吗? 表面上看有联系,但实际上,起促进作用的不是衣服,而是辛勤为孩子着想的父母,他们或许代表了更好的教育、更好的家境等等。
中心极限定理。美如画。在一个整体中,随机抽取数量为n的样本,这些样本的平均值会围绕整体平均值呈正态分布。由标准误差引领的68 95,非常美妙,由此才引出了抽样调查。
统计推断与假设检验。统计无法提供确切答案,但是可以说,在xx置信区间下,xxx事件发生的可能性为~,因此统计角度讲,我们更有理由相信...
回归分析与线性关系。多元线性回归,控制其他不变,观察剩下的那个,可以将性别歧视的解释因素降到很低。回归分析也容易犯错误:用回归方程式来分析非线性关系、相关关系不等于因果关系、变量遗漏、变量相关性很高、变量过多等等
项目评估与反显示。上没上哈佛会导致收入的很大差异吗?真正导致收入差异的是哈佛还是原本就能进入哈佛的优秀的人? 通过巧妙的对照组实验组设计,可以得出结论。因为两个弊端:一:人不能随意拿来做对照组,譬如有违道德的事。二:影响人的因素千奇百怪,无法完全保证其他因素的相同。此时就需要随机控制实验。Dif in Dif。
统计学是不确定的学科,用好了它可以帮助我们更深刻的理解世界,但是使用不当将会是谎言、甚至有极大的危害!