4月8日
清明节前收到了书,原计划清明节的时候大读一番,结果出了一些事情(沉迷R6)。。。。
清明节前已经简要读了第一章《统计、数据和统计思维》;
今天8号,头天上班,下午抽时间自学了第二章《数据集的描述方法》;
1.《统计、数据和统计思维》
整个第一章意在告诉我们统计的重要性和统计学在商务层面的应用,当然简单介绍了下统计学内涉及的领域,比如:抽样方法,过程(过程是个新概念,和计算机领域的“黑盒”,即不关注流程中数据如何变化,只关注输入和输出的数据)等等。但是,我当然知道统计学的重要性啊喂,要不然我学他干嘛啊喂。所以所谓清明节前看了第一章其实说白了就是什么功夫都没下,完全在学习tableau和玩R6了。。。。
2.《数据集的描述方法》
第二章开始,干货来了。首先是从小学、中学和大学学到的老生常谈的概念:
“定性数据的描述方法”——条形图,样本频率等
“定量数据的图形方法”——茎叶图,直方图,点图
“集中和分散程度的描述方法”——均值,中位数,众数
“变异性数据测度”——方差标准差,切比雪夫不等式
然后是一些新的干货
“相对位置的数值测度”——上中下四分位数
“异常数据的检测”——箱线图和Z得分
箱线图和z得分是很有用的概念,在互联网运营过程中,我们也许可以使用箱线图来判断某个数值是否异常。
需要注意,箱线图可以看到一组数据的偏移情况(根据箱线图的“胡须”长度决定)
z得分主要用于验证数据是否异常,z得分的结果代表了该数据落在几个标准差内,如果z得分的绝对值过大 ,那么,说明该数据处在一组数据的两端,是异常数据。
二元关系的描述——散点图
散点图在第二章介绍的很少,二元关系的相关性在当下适用情况也不是特别多,更多的是探讨多元变量的相关性,这个我们在后面会学到。