1.数据可视化
1.01 Cases, variables, and levels of measurement
cases: 统计案例
variables: 统计变量
levels of measurement: 测量级别
Difference(不同) | Order(顺序性) | Similar intervals(相同的间距) | Meaningful zero point(有意义的0点) | ||
---|---|---|---|---|---|
Categorical(分类变量) | Nominal(定类测量) | + | - | - | - |
Ordinal(定序测量) | + | + | - | - | |
Quantitative(定量变量) | Interval(定距测量) | + | + | + | - |
Ratio(定比测量) | + | + | + | + |
案例:
研究小学生每周看电视的时间
这里的Case统计案例就是小学生,variable(统计变量)就是小学生每周看电视的小时数,这里采用的定量变量中的定比测量(因为0小时也是有意义的,表示不看电视)
1.02 Data matrix and freqency table
Data matrix: 展示所有统计案例的各个变量的详细信息表
以下就是Data matrix的例子
球员姓名 | 发色 | 身高 | 体重 |
---|---|---|---|
Player1 | 黑色 | 175 | 80 |
Player2 | 黄色 | 176 | 79 |
Player3 | 蓝色 | 180 | 85 |
... | |||
freqency table: 展示某个变量(某类变量)在统计案例中的分布情况(数量、百分比、累计百分比)
以下是对上面Data maxtix表中发色的频率表
发色 | 个数 | 占比 |
---|---|---|
黑色 | 40 | 20% |
黄色 | 60 | 30% |
蓝色 | 100 | 50% |
1.03 Graphs and shapes of distributions
描述分类变量:
Pie chart(饼图): 优点: 很容易看某个分类在整体中占的百分比; 缺点: 不适合类型多的场景
Bar chart(柱状图): 优点: 很容易直接看到某个分类的具体数值,以及各个分类之间数量直观地比较
描述定量变量:
Dot plot(散点图): 用点来标识变量所在的位置
Histogram(直方图): 描述质量数据分布情况,以组距为底边、频数为高的一系列连接起来的直方形矩形图