一些基本变量包括均值,众数,中位数,方差什么的就不说了,值得注意的就是样本标准差s计算时是除以n-1。还有样本和总体符号的不同(总体均值,标准差分别是μ,σ)
一.Chebyshev`s theorem(切比雪夫理论)
一般的图:
(x-s,x+s) little info
(x-2s,x+2s) 75% info
(x-3s,x+3s) 8/9 info
对于正态分布:
一道例题:
b,这道题是找出低于40的占比,也就是x-2s,在图上标出40的位置,求40之前的面积占比即可(用68%,95%)
偏差估计
Z-score:
z的值与占比关系及偏差:
(-1,1) 68%
(-2,2) 95%
(-3,3) 99.7%
|z|>2 probable outlier
|z|>3 outlier
例题:
题目大意是一个女人觉得自己工资水平低了,怀疑公司性别歧视,于是看看自己工资在男性工资中的位置,通过z-score计算来判断自己的值在这张分布图里是否属于异常值,若是,则 sex discrimination
算出来-3.5,是!
箱形图:
1.5到3之间:suspect outliers
在3之外: highly suspect outliers