一、识别重复值的方法
1. COUNTIF函数(指定区域中按指定条件对单元格进行计数)
countif(range,criteria)
range 表示条件区域——对单元格进行计数的区域
criteria 表示条件——条件的形式可以是数字、表达式或文本,甚至可以使用通配符。
计数结果大于1说明有重复项
2. 排序关键字段后使用IF函数
- 排序后重复的数值会上下排列在一起
IF(条件判断, 结果为真返回值, 结果为假返回值)
3.使用数据透视表
- 需判断的作为值使用,并改为计数
二、去重方法
- 数据 - 排序和筛选 -高级
- 识别重复行后删除
也可用 PowerQuery 进行重复行的筛选
三、缺失值的处理
查找缺失值
- 使用 Ctrl + F
- 使用Ctrl + G 定位条件
处理方法
- 使用 0 / 均值填充
- 统计方法
- 删除该类数据或对此不处理
四、处理异常值
数字型无法直接转换成日期,直接强制转化会出错。需要先将其转换成文本,再转日期
数字转文本的方法: 20180925
LEFT(H77,4)&"-"&MID(H77,5,2)&"-"&RIGHT(H77,2)
五、数据标准化及权重
Min-Max标准化
目的是让数据对应的值保持在 0-1 区间内,数量级保持统一可以进行比对
新数据 = (原数据 - 极小值) / (极大值 - 极小值)
使用标准分进行标准化
从排名衡量分数好坏
标准分 = (原始分 - 平均分) / 标准差