知识点
1.置信水平 2.
1. 数据集下载
2. 以鸢尾花数据和泰坦尼克号为例
2.1 线型图
iris = sns.load_dataset('iris')
iris.head()
2.2展示线型图
x是要展示的分类数据,y是要展示每类数据的聚合值。
用seaborn 要考虑横轴放什么,纵轴放什么。
一组数据的2种展示方法
(1) sns.lineplot(x=np.arange(iris.shape[0]), y='sepal_length', data=iris) # seaborn绘图,给两组数据,如果只给标签,要加data,会默认根据data读取标签数据。 如果不给标签,data.sepal_length也可以。
(2)plt.plot(iris.sepal_length) # plt绘线型图,横轴默认填充数值。0-n-1(多少个)
2.3展示条形图
sns.barplot(x='species', y='sepal_length', data=iris, ci=95) # 绘制的是不同种类的鸢尾花数据在sepal_length上的平均值,还给了一个置信区间。
置信水平决定了置信区间,置信区间是实验次数有多少次是可信的,
100次实验有95次实验范围是包含真实值的,置信区间用置信水平来认定,和统计区间有关。
对泰坦尼克号数据
查看不同性别下年龄的均值,关注x放什么,y放什么
sns.barplot(x='sex', y='age', data=titanic, estimator=np.mean) # estimator在集成学习里是基学习器,也就是算法。
可以用series,不用再指定data
sns.barplot(x=titanic.sex, y=titanic.age) # x,y也可以是series,不用指定data# 指定data,是根据data和指定的字段读取数据。
等同于根据sex分组,求age的均值再plt展示
titanic.groupby('sex')['age'].mean().plot(kind='bar')
countplot 性别的男女比
titanic.sex.value_counts().plot(kind='bar')
sns.countplot(y='sex', data=titanic) # countplo计数,一般对离散字段进行统计
性别中男女中获救和没获救的多少。
分组里再分组
titanic.groupby(['sex','survived'])['age'].mean().plot(kind='bar')
sns.barplot(x='sex', y='age', data=titanic, hue='survived',
hue_order=[1,0], order=['female','male'], palette='Blues')# 横轴sex, 纵轴age,再根据分组因子'survive'分组,求性别中存活和没存活的年龄的平均值。
分组因子survive 的值0,1,顺序变化【1,0】,根据分组因子的取值来变化。可以只看【0】。
order解决sex的排序问题,hue_order解决分组后的分组,survive的排序问题。
颜色的另一种方法
2.4 直方图
sns.distplot(a=titanic.age) # 直方图只有一个a,年龄的密度density
3 常用图像
3.1 sns.lineplot 线型图
线型图一般是展示A,B的线性变化。横轴一定是一个顺序数据,如果不是,图形会凌乱。
鸢尾花数据集
iris = iris.reset_index()
iris.head()
sns.lineplot(x='index', y='sepal_length', data=iris, hue='species')
可以设置不同的点型和大小
markers = {
'setosa':'',
'virginica':'',
'versicolor':'o'
}
sns.scatterplot(x='sepal_length', y='sepal_width', data=iris, hue='species',style='species',
markers=markers, sizes={
'setosa':200,
'virginica':300,
'versicolor':400
})
3.2 散点图 适合连续数据和连续数据,如果是离散数据和连续数据,看分布,用swarmplot, boxplot 和 violinplot比较好
scatterplot 散点图
sns.scatterplot(x='species', y='sepal_width', data=iris)
boxplot 箱线图
sns.boxplot(x='species', y='sepal_width', data=iris)
swarmplot
sns.swarmplot(x='species', y='sepal_width', data=iris)
violinplot 琴图 分裂点可以设置琴左右不同为第2个分组。
sns.violinplot(x='smoker', y='total_bill', data=tips, hue='sex', split=False)
stripplot 没有swarmplot好用
sns.stripplot(x='sex', y='total_bill', data=tips)
3.3 热图
sns.heatmap(data=tips[['total_bill']][:10], annot=True, vmin=0, vmax=100) # 重点:可设置vmin和vmax,从而通过颜色看出数据的主要分布。annot=True 可以显示数据
热图常用关系图
sns.heatmap(iris.corr().drop(labels=['index'], axis=1),
annot=True, vmin=-1, vmax=1, cmap='coolwarm') # 颜色最好设置对比色。
3.4 直方图,地毯图,kde图像
sns.distplot(a=tips.total_bill, rug=False, kde=True, hist=False) # # hist=True, kde=True, rug=False, 可以通过设置3个参数得到不同的图像,地毯图是在坐标上的密集的。
3.5 高级的对比图 : facegrid
fg = sns.FacetGrid(data=tips, row='sex', col='day') # 设置网格,行代表sex,列代表day, 有2个sex值,分别为第一行和第2行。
fg.map(plt.scatter, "total_bill", "tip").add_legend()
fg.map(plt.hist, 'tip').add_legend() # 通过fg对象绘制图像。
3.6 pairplot对图
sns.pairplot(data=tips, hue='sex')
iris.head()
sns.pairplot(data=iris, hue='species')