Lesson 30 交叉分析(cross-over analysis)
通常用于分析两个或两个以上,分组变量之间的关系,以交叉表形式进行变量间关系的对比分析
数据透视表函数
pivot_table(values, index, columns, aggfunc, fill_value)
values: 数据透视表中的值
index: 数据透视表中的行
columns: 数据透视表中的列
aggfunc: 统计函数
fill_value: NA值的统一替换
Lesson 31 结构分析(structure analysis)
在分组以及交叉分析的基础上,计算各组成部分所占的比重,进而分析总体的内部特征的分析方法
主要是指定性分组, e.g.性别结构,股权结构,市场结构,地区结构
通常使用饼图,如果结构成分较少,可考虑圆环图
axis:
0 -> 按列运算 default
1 -> 按行运算
数据框外运算函数:add, sub, multiply, div
数据框内运算函数:sum, mean, var, sd
Lesson 32 相关分析(correlation analysis)
研究两个或两个以上随机变量之间互相依存关系的方向和密切程度
可分成线性相关和非线性相关
线性相关关系主要采用皮尔逊相关系数r来度量连续变量之间线性相关强度
-1<=r<=1
线性相关系数r绝对值取值范围 | 相关程度
----|------|----
0 <= r绝对值 < 0.3 | 低度相关
0.3 <= r绝对值 < 0.8 | 中度相关
0.8 <= r绝对值 <= 1 | 高度相关
相关分析函数
#计算每个列两两之间的相关度,并返回DataFrame
DataFrame.corr()
#只计算该序列与传入的序列之间的相关度, 返回一个数值型,大小为相关度
Series.corr(other)