在充分了解赛题之后,准备开始进行数据集的分析工作,分别从数据集维度,标签,字段属性和类型。
本次数据集主要有44列,其中有连续性数据和离散型数据以及几列脏数据。
- 数据总体了解:
- 读取数据集并了解数据集大小,原始特征维度;
- 通过info熟悉数据类型;
- 粗略查看数据集中各特征基本统计量;
- 缺失值和唯一值:
- 查看数据缺失值情况
- 查看唯一值特征情况
- 深入数据-查看数据类型
- 类别型数据
- 数值型数据
- 离散数值型数据
- 连续数值型数据
- 数据间相关关系
- 特征和特征之间关系
- 特征和目标变量之间关系
数据分析的目标是了解数据集的特性为接下来得步骤做准备。
我们可以借助seaborn库与pandas 库对数据集概况数据密度进行整体了解。
利用seaborn进行绘图大致了解数据字段的密度
主要工作还是借助于各个简单的统计量来对数据整体的了解,分析各个类型变量相互之间的关系,以及用合适的图形可视化出来直观观察。