1、什么是统计学
- 什么是数字、数值、数据
- 统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学
2、统计学会说谎
相同的数据,不同的指标表现方式会造成不一样的理解,比如税率从2%增长到了4%,看起来才增长了2%,但是增长率却是100%,也就是说原本缴1000的税现在要缴2000!!!气抖冷。
-
百分比不会撒谎,但有时候也会夸大其词或避重就轻。比如:
- 我今年炒股收益率增长了300%,看起来是不是很多??但是上一年我才赚了5块,今年才赚了20,甚至还不够喝一杯摩卡咖啡。
- Boss宣布全公司每人涨薪10%,好高兴,你的工资5K * 10%=0.5K,你的TL 50K * 10%=5K,哦豁,听起来涨薪10%比他的工资是你的10倍是不是舒服多了。
-
相同的数据,不同的统计窗口也会造成不一样的理解。
年份 员工 损益(单位:万) 去年同比 2019 A 10 - 2019 B 10 - 2019 C 10 - 2019汇总 - 30 - 2020 A 12 +20% 2020 B 0.5 -95% 2020 C 12 +20% 2020汇总 - 24.5 -18.3 悲观的:我们的经济水平越来越糟,2020年的经济水平同比下跌16.4%
乐观的:我们的经济水平越来越好,2020年有接近66.7%的人都比上年的财富增长了
名义值和实际值:是否考虑通货膨胀因素
-
好消息是,统计学帮助我们得到重要的结果,我们接下来对结果的有效反应(行动)可以帮助我们改善结果。
坏消息是,统计学也有可能只是为了让数据看上去比较顺眼。(坏账转催收,辍学转留学、转校,医生不为严重病危的患者做手术),任何与数据不好看的冲突都不会有体现。
3、相关性和相关系数
相关性:相关性的体现表现的是两个变量之间的关联程度,比如温度和冰激凌,锻炼与体重。
相关系数:介于-1和1之间,相关系数越接近1和-1,变量间的关联性就越强。作为相关性的一个描述性工具,相关系数不受变量单位的限制,比如锻炼的频率与体重的多少(之类的散点图)
- 根据相关性系数,可以大致预测两者之间的关联和关系程度做出对应调整(比如受教育程度越高生活越好;书读得越多见识越广)
4、概率、期望值、回归平均数、标准误差
生活中可以根据期望值与投入对比,判断某一项事情是否值得投入
有些人考试某次可能超常发挥、大失水准,只不过是某次交好运/厄运,当好运/厄运结束时,随之而来的表现将会更加接近平均值
-
标准误差:符合正态分布(中心极限定理),描述样本与整体的离散程度
要判断样本是否抽取自一个群体,可以通过计算样本平均值与群体平均值的差异,他们之间将会呈正态分布,比如说判断一堆零件是否符合标准
要从样本估计整体,比如要从一份投票结果反映整体的投票,百分比的标准误差公式:
p代表某个特定观点的回应比例,n代表样本的回应数
5、线性回归
在控制其他影响因素的前提下,对某个具体变量与某个特定结果之间的关系进行量化。
基本术语:
- 因变量:依赖其他变量而变化
- 自变量(解释变量\控制变量):解释因变量的变量
- 回归系数:揭示自变量与因变量之间相关关系,主要关注3个方面
- 正负:正负反映自变量和因变量的相关关系方向,比如一般身高越高体重越中,回归系数为正,锻炼越多脂肪越少,回归系数为负。
- 大小:大小反映自变量的变化对因变量的影响大小
常用方法:
- 最小二乘法(OLS):OLS直线可以让所有数据的残差平方和最小
回归分析要谨慎,避免:
- 用回归方程式来分析非线性关系:回归系数描述的是“数据最佳拟合直线”,一定是一条直线,如果两个变量之间不存在一致的线性关系,不能使用回归分析
- 相关关系并不等同于因果关系:例如我国人均gdp不断上升,我国的珍稀动物物种越来越少,这两者看起来像是存在着负相关关系,但是假设人均gdp下降了,物种也不会因此增加,这两者只是伪因果关系
- 因果颠倒关系:例如发达A地区的教育支出要高于中等B地区的,就算两个变量之间的正相关关系再明显,也不能断定因果关系的方向,因为你不知道究竟是对教育的支出才促使的经济发展,还是因为经济发展了才促进了教育的投入;另一个例子是gpd的增长率与失业率。因此,对容易受因变量影响的自变量,使用回归分析是无意义的
- 变量遗漏偏差:例子,打高尔夫球的人容易犯心脏病和关节病。这个结论就是没有考虑到打高尔夫球的群体和年龄。在研究高尔夫球对健康的影响时必须正确控制年龄的变量。一般来说,老年人才有更多的时间打高尔夫球,这个人群的年龄较不打高尔夫球的人较高,如果将年龄作为解释变量纳入到回归分析中,得到的结论更可能是年龄相仿的人,打高尔夫球的比不打的更健康。在这个例子中,年龄就是被遗漏的变量,这种研究分析,就算计算得再仔细,结果也会毫无根据性。
- 数据矿(变量过多):较变量遗漏产生的影响,是不是加多点变量就会更好?并不是!加入的无关变量过多,回归分析的结果就会被稀释。例如当研究一件事情产生的原因时,因为不知道原因,所以加入了尽可能多的潜在变量,看看最后有哪些变量具有显著的统计学意义,这种行为其实是无意义的,因为在最后,总会有一个无关变量恰到好处地达到了显著性水平的门槛,而且这类变量也是很难被察觉的。(某些无关变量最后也达到了显著性水平的门槛,因为总有人把最后拿到结果对着变量自圆其说)
- 高度相关的解释变量(多元共性):在一个回归方程里,有多个解释变量高度相关时,这样会造成无法分清变量对因变量的真是关系。例如,研究身体相对不监控的IT工作者,究竟是对着电脑的时间太多造成的,还是经常坐着不运动造成的,这两个变量的划分就会显得很模糊,很难得到对应变量的回归系数
回归分析依然是一个非常棒的统计学工具,在合理运用的前提下,能够为我们提供结果与变量间关键的相关关系,成为科学方法的一个重要组成部分