[学习]写在第一周之描述性统计
偶然间从朋友圈得知居士的公众号,然后进入了数据学习小组,觉得这是一个很好的学习形式和契机。跟着一群有学习热情的人,一起学习和分享这个应该是最好的学习形式了,虽然我自己没有办法保证我一定能够坚持学下去,但是我希望能够利用这个机会建立和从别的人身上学习一些良好的学习习惯,这个是会很受益的。
第一周来学习一些描述性统计。
虽然都是一些非常基础的概念,但是在具体的业务中针对不同的场景应该会有不同的理解。
思维导图先上。
1.数据集中趋势
众数不一定只有一个,可能存在好几个。
中位数是特殊的分位数,也就是二分位数。中位数计算要考虑奇偶数。
平均数应该包括简单平均数,加权平均数,几何平均数,调和平均数。
给个平均数的例题给大家参考
假如你去登山,以6千米/小时的速度上山,以4千米/小时的速度原路下山,求上、下山的平均速度。这个就是典型的调和平均数计算。
众数(适用于分类、顺序、数值型数据)
不受极端值影响
具有不惟一性----出现次数最多的那个
数据分布偏斜程度较大时应用
中位数(适用于顺序、数值型数据)
不受极端值影响----数到中间那个
数据分布偏斜程度较大时应用
平均数(适用于数值型数据)
易受极端值影响
数学性质优良----平衡跷跷板的那个
数据对称分布或接近对称分布时应用
2.数据离散程度
异众比率:非众数组的频数占总频数的比率
用于衡量众数的代表性: 其值越小,众数的代表性越好。
四分位差:上四分位数与下四分位数之差,用于衡量中位数的代表性。
极差:一组数据的最大值与最小值之差,易受极端值影响。
方差与标准差:数据离散程度的最常用测度值,反映了各变量值与均值的平均差异。
要注意样本方差与总体方差的区别。
自由度的概念,附上一个知乎的链接,讲的很容易懂。
为什么样本方差(sample variance)的分母是 n-1?
标准分数:便于对不同变量的值进行对比,用于对变量的标准化处理。计算公式如下:
离散系数:标准差与其相应的均值之比,对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响。
离散系数计算公式为:
V越大,说明标准差占均值的比重越大,数据越分散。
3.数据分布形态
用来形容数据分布形态比较常见的就是偏态系数和峰态系数,这两个的公式比较复杂,在需要使用的时候可以自行查找。记住偏态是三次方,峰态是四次方。
偏态系数
偏态系数= 0 为 对称 分布
偏态系数> 0 为 右偏 分布
偏态系数< 0 为 左偏 分布
关于偏态,大家常说的“长尾”效应我个人理解是跟偏态有关的,应该是一个偏态系数较大的右偏分布,当尾巴朝向哪边,就是哪边的偏分布。
附上一个常见的长尾分布图
峰态系数
峰态系数= 0 为峰度适中。
峰态系数< 0 为 扁平 分布。
峰态系数> 0 为 尖峰 分布。系数越大,形状越尖。
以上就是这一周关于描述性统计的基础知识,主要还是把以前上课的知识拿出来回顾了一下,真正的理解这些概念,在以后活学活用还是需要一定的操练,并且运用工具来实现它。
祝各位周末愉快,学习不止!
PRECIOUS!
Adam
2019-07-21