数据质量分析
检查数据中是否有脏数据:
缺失值
有3个原因造成了这个情况:暂时无法取得;被遗漏;属性值不存在(小学生的配偶)异常值
样本中的个别值,其数值明显偏离了其余的观测值。
(1)简单统计分析:根据常识分析
(2)根据该数据远离平均值的多少倍来确定它是不是异常值
(3)箱型分析:25%的数据任意变化而不会影响四分位数。不一致的值
多指数据的矛盾性和不相容性。重复数据和含有特殊符号的数据
数据特征分析
分布分析
- 定量数据的分布分析:
极差,组距,组数,频率分布图,频率分布直方图。 - 定性数据的分布分析:
根据数据的分类利用饼状图或者柱状图来做分布分析。
对比分析
- 绝对数比较:将不同数据直接比较得出差异
- 相对数比较:结构相对数,比例相对数,强度相对数,计划完成相对数,动态相对数(有一个数作为分母)
- 统计量分析:对定量数据进行统计描述,常从集中趋势和离中趋势两个方面分析。
集中趋势:均值,中位数,众位数
离中趋势:极值,标准差,变异系数,四分位数间距 - 周期性分析:随时间变化而具有的周期性
- 贡献度分析(Pareto Principle)
- 相关性分析:直接绘制散点图,散点矩阵,计算相关系数(pearsonx相关系数,Spearman相关系数,判定系数)