学过的知识要时常总结,把知识变成知识点,借简书之便,想来想去,就从最基础的Excel函数开始吧。
自己做了一个小case,有一个数列,包含10个随机整数,相关的描述统计如下:
选中一个单元格,把公式敲进去,就可以得出相应的结果,在右侧列出了相关的公式,大多数可一目了然,不必多言。笔记的重点应该放在非常规现象上:
标准差 是 STDEV.S 还是 STDEV.P
输入方差公式时,会发现有STDEV.S和STDEV.P。
“STDEV”表示“标准差”,Stand Deviation
“S”表示“样本”,即 Sample
“P”表示“全体”,即 Population
选择S还是P,其实就是标准差公式中分母是"n-1"还是"n"的问题,为什么是“n-1”涉及到无偏估计和有偏估计,这里不展开,改天专写一篇,单独讨论。
简单说,S用于小型样本,P用于大型样本或者全体。
那么样本量到底是多少的时候用S,多少时候用P呢
设想了这个“极端”的例子,假设现在样本里面只有2个值:
很轻易就能计算出2种标准差,但是误差很大……(这个时候倾向于使用无偏估计,即STDEV.S)
然后固定均值,把这个样本“放大”:
现在有5个“1”和5个“3”,样本量为10,均值不变还是2。而标准差S已经接近标准差P了,于是发现一个规律: 样本量越大,标准差S就越接近标准差P。
根据这个规律,总结出了一张表:
以及线型图:
可以发现:样本量小于20个比较倾向于使用STDEV.S。
方差Var.S & Var.P 也同样分为样本和整体,方法一样。
计数 COUNT & COUNTA
这里也有一个例子,5个样本,2种方法计数:
可以发现:“COUNT”只统计数值型的样本,而COUNTA可以统计全部样本。
第一次写,感觉乱糟糟的,慢慢改进吧。愿与诸君一起成长!