数据清洗原理
利用有关技术如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。简单来说,数据清理是将数据库精简以除去重复记录,并使剩余部分转换成标准可接收格式的过程。
数据缺失
1)定范围:了解数据库哪些字段缺失,缺失比例如何?重要性如何?是补充还是去掉?
2)删字段:删除没用的、难以补齐的
3)补数据:多数情况下,缺失的值要手工填入(即手工清理),靠业务知识/经验填充或从本数据源/其他数据源推导出来
数据异常
1)格式:如时间/时期统一方式去规整等
2)字符:如半角/圆角;数据与字段对应等
3)合理性:如年龄输入200,则为不合理数据
4)一致性:如年龄或出生年月要与身份证字段相互印证
归一化
1)含义:把绝对的数量改变成相对的数量,本质是将带有单位的绝对数量换成没有单位的相对数量,纯粹对比大小和比例关系
2)归一化原因:① 去量纲操作 ② 避免极值问题
3)归一化方法:
① 最值归一化:使用一组数据中最大值和最小值进行归一化策略,适用于有限定范围的数据
② 均值方差归一化:无明显边界的数据,正态分布数据为优
③ 非线性归一化:处理极值情况