数据源:链接: https://pan.baidu.com/s/1EFqJFXf70t2Rubkh6D19aw 提取码: syqg
数据源示例:
探索泰坦尼克灾难数据
步骤1 导入必要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
步骤2 从以下地址导入数据
path1='pandas_exercise\exercise_data/train.csv'
步骤3 将数据框命名为titanic
titanic=pd.read_csv(path1)
步骤4 将PassengerId设置为索引
titanic=titanic.set_index('PassengerId')
print(titanic.head())
步骤5 绘制一个展示男女乘客比例的扇形图
males=(titanic['Sex']=='male').sum()
females=(titanic['Sex']=='female').sum()
propotion=[males,females]
plt.pie(propotion,labels=['male','female'],explode=[0.15,0],startangle=90,autopct='%1.1f%%')
plt.title('Sex Propotion')
plt.show()
步骤6 绘制一个展示船票Fare, 与乘客年龄和性别的散点图 用sns
lm=sns.lmplot(data=titanic,x='Age',y='Fare',hue='Sex')
lm.set(title='Fare * Age')
axes = lm.axes
axes[0,0].set_ylim(-5,)
axes[0,0].set_xlim(-5,85)
plt.show()
步骤7 有多少人生还?
print(titanic['Survived'].sum())
步骤8 绘制一个展示船票价格的直方图
binsval=np.arange(0,600,10)
plt.hist(titanic.Fare,bins=binsval)
plt.xlabel('Fare')
plt.ylabel('Frequency')
plt.title('Fare payed Histogram')
plt.show()