【读书笔记】赤裸裸的统计学

1、什么是统计学

什么是数字、数值、数据
统计学是通过搜索、整理、分析、描述数据等手段，以达到推断所测对象的本质，甚至预测对象未来的一门综合性科学

2、统计学会说谎

相同的数据，不同的指标表现方式会造成不一样的理解，比如税率从2%增长到了4%，看起来才增长了2%，但是增长率却是100%，也就是说原本缴1000的税现在要缴2000！！！气抖冷。
百分比不会撒谎，但有时候也会夸大其词或避重就轻。比如：
- 我今年炒股收益率增长了300%，看起来是不是很多？？但是上一年我才赚了5块，今年才赚了20，甚至还不够喝一杯摩卡咖啡。
- Boss宣布全公司每人涨薪10%，好高兴，你的工资5K * 10%=0.5K，你的TL 50K * 10%=5K，哦豁，听起来涨薪10%比他的工资是你的10倍是不是舒服多了。
相同的数据，不同的统计窗口也会造成不一样的理解。

年份员工损益(单位：万) 去年同比

2019 A 10 -

2019 B 10 -

2019 C 10 -

2019汇总 - 30 -

2020 A 12 +20%

2020 B 0.5 -95%

2020 C 12 +20%

2020汇总 - 24.5 -18.3

悲观的：我们的经济水平越来越糟，2020年的经济水平同比下跌16.4%

乐观的：我们的经济水平越来越好，2020年有接近66.7%的人都比上年的财富增长了
名义值和实际值：是否考虑通货膨胀因素
好消息是，统计学帮助我们得到重要的结果，我们接下来对结果的有效反应（行动）可以帮助我们改善结果。

坏消息是，统计学也有可能只是为了让数据看上去比较顺眼。（坏账转催收，辍学转留学、转校，医生不为严重病危的患者做手术），任何与数据不好看的冲突都不会有体现。

年份	员工	损益(单位：万)	去年同比
2019	A	10	-
2019	B	10	-
2019	C	10	-
2019汇总	-	30	-
2020	A	12	+20%
2020	B	0.5	-95%
2020	C	12	+20%
2020汇总	-	24.5	-18.3

3、相关性和相关系数

相关性：相关性的体现表现的是两个变量之间的关联程度，比如温度和冰激凌，锻炼与体重。
相关系数：介于-1和1之间，相关系数越接近1和-1，变量间的关联性就越强。作为相关性的一个描述性工具，相关系数不受变量单位的限制，比如锻炼的频率与体重的多少（之类的散点图）
$\frac{1}{n}\Sigma_i^n \frac{(x_i-\bar{x})}{\sigma_x} \frac{(y_i-\bar{y})}{\sigma_y}$

根据相关性系数，可以大致预测两者之间的关联和关系程度做出对应调整（比如受教育程度越高生活越好；书读得越多见识越广）

4、概率、期望值、回归平均数、标准误差

生活中可以根据期望值与投入对比，判断某一项事情是否值得投入
有些人考试某次可能超常发挥、大失水准，只不过是某次交好运/厄运，当好运/厄运结束时，随之而来的表现将会更加接近平均值
标准误差：符合正态分布（中心极限定理），描述样本与整体的离散程度
- 要判断样本是否抽取自一个群体，可以通过计算样本平均值与群体平均值的差异，他们之间将会呈正态分布，比如说判断一堆零件是否符合标准
- 要从样本估计整体，比如要从一份投票结果反映整体的投票，百分比的标准误差公式：
  $\sqrt{p·(1-p)·\frac{1}{n}}$
  p代表某个特定观点的回应比例，n代表样本的回应数

5、线性回归

在控制其他影响因素的前提下，对某个具体变量与某个特定结果之间的关系进行量化。

基本术语：

因变量：依赖其他变量而变化
自变量（解释变量\控制变量）：解释因变量的变量
回归系数：揭示自变量与因变量之间相关关系，主要关注3个方面
- 正负：正负反映自变量和因变量的相关关系方向，比如一般身高越高体重越中，回归系数为正，锻炼越多脂肪越少，回归系数为负。
- 大小：大小反映自变量的变化对因变量的影响大小

常用方法：

最小二乘法（OLS）：OLS直线可以让所有数据的残差平方和最小

回归分析要谨慎，避免：

用回归方程式来分析非线性关系：回归系数描述的是“数据最佳拟合直线”，一定是一条直线，如果两个变量之间不存在一致的线性关系，不能使用回归分析
相关关系并不等同于因果关系：例如我国人均gdp不断上升，我国的珍稀动物物种越来越少，这两者看起来像是存在着负相关关系，但是假设人均gdp下降了，物种也不会因此增加，这两者只是伪因果关系
因果颠倒关系：例如发达A地区的教育支出要高于中等B地区的，就算两个变量之间的正相关关系再明显，也不能断定因果关系的方向，因为你不知道究竟是对教育的支出才促使的经济发展，还是因为经济发展了才促进了教育的投入；另一个例子是gpd的增长率与失业率。因此，对容易受因变量影响的自变量，使用回归分析是无意义的
变量遗漏偏差：例子，打高尔夫球的人容易犯心脏病和关节病。这个结论就是没有考虑到打高尔夫球的群体和年龄。在研究高尔夫球对健康的影响时必须正确控制年龄的变量。一般来说，老年人才有更多的时间打高尔夫球，这个人群的年龄较不打高尔夫球的人较高，如果将年龄作为解释变量纳入到回归分析中，得到的结论更可能是年龄相仿的人，打高尔夫球的比不打的更健康。在这个例子中，年龄就是被遗漏的变量，这种研究分析，就算计算得再仔细，结果也会毫无根据性。
数据矿(变量过多)：较变量遗漏产生的影响，是不是加多点变量就会更好？并不是！加入的无关变量过多，回归分析的结果就会被稀释。例如当研究一件事情产生的原因时，因为不知道原因，所以加入了尽可能多的潜在变量，看看最后有哪些变量具有显著的统计学意义，这种行为其实是无意义的，因为在最后，总会有一个无关变量恰到好处地达到了显著性水平的门槛，而且这类变量也是很难被察觉的。（某些无关变量最后也达到了显著性水平的门槛，因为总有人把最后拿到结果对着变量自圆其说）
高度相关的解释变量(多元共性)：在一个回归方程里，有多个解释变量高度相关时，这样会造成无法分清变量对因变量的真是关系。例如，研究身体相对不监控的IT工作者，究竟是对着电脑的时间太多造成的，还是经常坐着不运动造成的，这两个变量的划分就会显得很模糊，很难得到对应变量的回归系数

回归分析依然是一个非常棒的统计学工具，在合理运用的前提下，能够为我们提供结果与变量间关键的相关关系，成为科学方法的一个重要组成部分