1. duplicated() 和 drop_duplicated()
duplicated() 检测重复值,drop_duplicated() 去掉重复值。
1.1 查看重复值的比
(1)所有列重复为重复
df.duplicated() 的结果为TRUEor False,进行均值得到重复值的比。比例很大,说明共线性很大。
(2)指定列重复才作为重复,参数subset
(3)指定第一个还是最后一个不为重复值
first,last, 为first, 第一个保留,其他作为重复值。
通过df.loc 得到重复行的索引