1. 初步了解数据变量情况
attributes() 获得数据集的属性列表,对数据集结构的整体把握
str() 获得数据的内部结构
summary() 获得一系列统计指标值
quantile() 计算各分位值
describe() 获得更完整的数据分布(分位数上更细)
basicStats() 获得更丰富的指标,方差、标准差、偏度、峰度等
偏度:衡量数据的偏倚程度--正态分布完全对称偏度为0,[-1,1]区间对称性较强,也不存在明显的偏倚程度,>1右偏趋势反之左偏(右偏:密度分布曲线在右侧有较长尾部)
峰度:集中与分散的程度--正态分布峰度为0,则若>0则表示对比正态分布更为陡峭,反之则更为平坦。若绝对值较大,则说明可能存在异常值
2.相关性--[-1,1]绝对值越大,相关性越大。正负表示正负向关系
cor() 获取相关系数
plotcorr() 绘制相关图,直观比较各变量相关程度
圆形越窄,相关性越高
3.可视化
hist() 直方图
breaks设定分组
Ecdf() 累积分布图 -- Himsc包
boxplot() 箱型图
绘制分组箱型图进行交叉分析
dotchart() 点阵图--呈现离散型变量各取值水平的分布情况
legend() 添加图例