统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。跟我一起从零开始学习吧~
首先我们学之前要知道统计学主要分为三类:
①描述性分析(均值、中位数、众数、方差、标准差等)
②预测分析(预测未来)
③推论统计(通过样本推论出总体情况)
本篇文章主要涵盖描述性统计的知识点
一、均值、中位数、众数
均值大家再熟悉不过了,pandas 我们用mean 、excel我们用average,这里就不介绍了
中位数:从小到大排序,找到中间的数据。如果中间有两个数,中位数就是两个数的均值
众数:哪个数字出现次数最多,就是众数
什么时候会用到中位数、众数?
举个栗子
3,3,3,3,3,100
假如以上是一组成绩数据
平均数:(3+3+3+3+3+100)/6 = 19.16
中位数:3
众数:3
我们观察,如果用平均数的话,是不是与实际偏差过于大。众数和中位数会合理一点
数据中的100,称为离群值(明显与别的值的不同)
二、极差、中程数
极差:指数字分开的有多远,最大数-最小数(结果越小,数字间越紧密)
中程数:取最大数+最小数的平均值
三、描述数据分布:箱须图
以上是对观察数据的集中趋势很好的一种作图方式,其实和箱线图很相似。
四、总体均值和样本均值
起初遇到数学公式,心里是退缩的,其实发现,尝试着慢慢去理解,真的不难。加油~
总体均值用符号μ(读miu)来表示,公式如下:
我们通常用底下的公式,表示对N个X求和,从i = 1开始,再除以N
样本均值用符号X(X上面有个—)来表示,公式如下:
样本均值和样本均值唯一的区别就是N,n,N表示大量数据,n表示少量数据
五、总体方差和样本方差
总体方差
样本方差
六、标准差
目的:为了表示数据集中数据点的离散程度
以上内容,如果能看懂,说明统计学入门了,继续前行~
希望本文的内容对大家的学习或者工作能带来一定的帮助,每天进步一点点,加油。