好吧,今天要来说数学,感觉要鸣锣开道,“军民人等齐散开!”……现在还在看文章的你,应该对数学是真爱,亦或像我一样是个悲催的理工科生,散也散不开。
统计在大数据时代变得越来越重要。海量的数据像放大镜一般把信息复杂的一面呈现在众人。黑天鹅、灰犀牛,这些原来在认知之外的事情现在也“只道是寻常”了。如何不被信息海洋所裹挟,成为了每个现在人都面临的问题。而统计学思维,这种梳理信息的数学工具就自然成为了“居家旅行,谋财害命,必备良药”了。想来大家都多多少少学习过相关知识。而作为温故而知新的辅助材料,这本《统计思维——程序员数学之概率统计》的小册子,一方面能帮你回忆统计学知识,一方面又能帮你练习python语言,也算是一举两得。
学习数学最好的方法就是拔去其抽象的外衣,回归到具体的实际问题。而统计学要解决的问题就是如何用部分来更靠谱的表示整体。
来,我们继续把问题拆分。第一个问题:应该怎么样描述整体的样子?我说它柳叶眉,杏核眼,樱桃小口一点点,你一定左手右手一个慢动作;我说它就是那一亿两千三百四十五个数据呈现的那个样子,你一定会右手左手慢动作重播。我们需要的是一个有代表性又能反映真实状况的参数来描述整体的模样。这时统计君就给我们推荐了两类描述:一种是集中性描述,如均值、中位数、众数等,它用数据集中的一个特点来描述整体数据;一种是离中性描述,如方差、标准差等,它用数据的差异来表示数据的范围。集中性描述是圆心,离中性描述是半径,这样我们就可以画一个圆,将整体数据长什么样描述出来。
第一个问题解决了,第二个问题又来了:知道整体该怎么表示了,但是用这些局部的数据来怎么样来靠谱的描述?这就好比给人画像,你知道应该画一个鼻子两只眼,可是你怎么知道你画的就是要画的人呢?统计君这时又非常贴心地给出了估计的操作,就是用部分数据的特征来描述整体数据的特征。一种常用的估计是点估计,就是用一个样本(就是部分数据)的特征来表示整体的一个特征。此外还有就是区间估计,就是用样本估计的一个范围来估计整体的特征。这样,我们就可以用部分数据画出鼻子眼睛,给整体一个大致可信的模样。
知道整体的长相,还来不及细大量,第三个问题就来了:大家勾画的都是一个大致的整体模样,那怎么才能靠谱的区别你和我的整体是否一样呢?比如说,你根据你的统计画了一个像,我根据我的统计也画了一个像,因为两个都是模糊的画像,我们怎么能排除你我模糊印象的影响,确定这个画像是否一样呢?统计君微微一笑:这都不叫事!统计君给出了假设验证的大招,其思路就是将差异映射到各种统计分布上,用已知的统计分布计算出差异出现的概率(p值),用概率值的大小,反映假设的可能性。当然,这种方法的使用需要准确的将假设映射到各种分布上,所以才有了各种根据不同分布的各种假设验证。武器齐全,各种兵来将挡水来土掩,统计君各种强大。
到这里,统计的核心内容也描述的差不多了。我也该言归正传说说《统计思维——程序员数学之概率统计》这本书了。程序员的书,一般都会将线上与线下相连接,这本书自然也不例外。别看这本书薄薄140页,可更多的内容都在线上,而且是各种各种的练习,绝对的在实践中成长。当然,这同时也成了这本书的弊端,太多内容在线上,让想安安静静当个读书美男的我多少有点蛋疼,而且对我的Python能力也提出了挑战。当然,这本书跳出数学派系写统计的思路,确实引入了不少新观点,比如不关注概率密度函数,却全书遍布CDF图,有些描述也挺开脑洞的。可惜知识点讲得并不透彻,只能做复习参考用,真要想学好统计,还是找本专业教材吧!
本书评价,5星满分,我给3星!程序员可以闲来翻翻!