kaggle项目实战——泰坦尼克号船员存活率预测

很久之前练习过的一个kaggle项目，有点记不清了，今天来温习下，嘻嘻~
kaggle给初学者或者富有挑战能力的选手们提供了一个非常好的平台，希望自己以后尽量抽时间多做几个这种项目，与大牛们一起交流学习~

1.下载理解数据集

下载地址：https://www.kaggle.com/c/titanic/data(需要注册kaggle才能下载哦~)
下载完数据集要理解每个字段的含义，项目背景等，这个很重要哦~

2.加载查看数据分布、缺失、异常情况

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
train=pd.read_csv("F:/titanic/train.csv")
test=pd.read_csv("F:/titanic/test.csv")
train.head() #大概看一下数据长什么样

#查看数据类型，缺失情况等信息
train.info()
test.info()

通过上面的信息，我们可以得到：

训练集共有891个样本，测试集共有418个样本
训练集和测试集中Cabin这个特征缺失都比较多，了解到这个特征的意思是客舱号码，跟我们要预测的船员是否生存关系应该不大，因此后期考虑将这个特征删除
训练集和测试集中Age这个特征都有缺失，但是缺失不多，可以通过众数、中位数、均值、插值、特殊值等填充，鉴于时间和成本因素，后面我直接用众数填充，有精力的可以多尝试几种方法，选择最好的进行填充
Embarked仅在训练集中有缺失，缺失2个，也是不多，且了解到这个特征的意思是登船港，共有3个不同的取值，因此后面直接用众数进行填充
Fare仅在测试集中有1个缺失，且了解到这个特征的意思是旅客票价，应该跟Pclass（Ticket class ）相关性比较高，后面将结合Pclass进行填充
好了，知道了数据大概的缺失情况，我们下面看一下他们的统计性描述信息：

train.describe()
test.describe()

通过上面的统计描述信息，我们可以发现：

训练集中平均38%左右的人生还
Pclass即船票类型共分三等，分别是1、2、3
数据集中年龄最大的是80，最小的是0.17，年龄在50岁以上的人很少，大部分集中在20-40岁之间
船票价格差距较大，支付高价格的人很少
带父母或孩子出行的乘客很少
PassengerId只是每位乘客的一个唯一标识，训练模型时可将该特征去掉
上面描述的都是数值型的特征信息，也可以查看字符型的特征信息：

train.describe(include=["O"])

通过对训练集的特征统计信息，可以发现：

Name这个特征所有的名字都不一样，但从名字中可能获取不到更多的信息，但是发现名字都带有Miss、Mr、Mrs这种称谓信息，后续可以在特征工程时构建此类信息
Sex特征中，男性占比更大，891人中577都是男性
Embarked特征中，共3个不同的取值，S即Southampton频次最高，644次

3.数据探索，挖掘各个特征与目标特征之间的关系

先看一下这些数值特征与目标特征间的线性相关性：

import seaborn as sns 
#Seaborn是对matplotlib的extend，是一个数据可视化库，提供更高级的API封装，在应用中更加的方便灵活
corrmat=train.drop('PassengerId',axis=1).corr()
f, ax = plt.subplots(figsize=(10, 7))
plt.xticks(rotation='90')
sns.heatmap(corrmat, square=True, linewidths=.5, annot=True)
plt.show()

通过上图，可以发现：

是否生存与Fare程正相关，相关性系数为0.26，与Pclass程负相关，相关性系数为0.34，从实际含义也可以理解，因为票价越高，船票类型就越小，最好的船票是1等票，因此，Fare与Pclass的相关性系数也很高，0.55
Parch与SibSp相关性也很高，为0.415,
下面我们再单独对这些特征进行分析：
(1)对Pclass进行分析

train[['Survived','Pclass']].groupby(['Pclass']).mean()

通过上面的结果，可以发现Pclass等级越高，存活率越高，这是一个比较重要的特征
(2)对Age进行分析

target = sns.FacetGrid(train,col='Survived')
target.map(plt.hist,'Age',bins=20)

通过上图，可以发现：

大部分乘客年龄都在20-40岁之间
0-10岁之间存活下来的儿童较多，大量13-35岁之间的乘客没有存活下来，年龄最大（80岁）的老爷爷存活下来
并不是年龄越大或者越小存活率越大，因此我们需要对年龄进行分段，具体划分方法可以通过人为经验、图像观察、决策树辅助等划分
(3)对SibSp和Parch进行分析

train[['Survived','SibSp']].groupby(['SibSp']).mean()
train[['Survived','Parch']].groupby(['Parch']).mean()

通过上图，可以发现：

是否生存与SibSp、Parch线性相关性不是很明显，可以看后期模型中的效果再做判断
(4)对Fare进行分析

target = sns.FacetGrid(train,col='Survived')
target.map(plt.hist,'Fare',bins=20)

通过上图，可以发现：

票价越低，存活率越低
这个可以跟Pclass对应，船票等级越高，存活率越高，但这两个特征具有高度共线性，后期如果用线性回归之类的模型可以只用其中的一个特征
(4)对Embarked进行分析

train[['Survived','Embarked']].groupby(['Embarked']).mean()

可以发现：

从C口进入的乘客存活率更高，从S口进入的乘客存活率最低，改特征是定性特征，很多模型都无法直接运行，后续可以对改特征进行亚编码
(5)对Sex分析

train[['Survived','Sex']].groupby(['Sex']).mean()

可以发现：

女性的存活率明显高于男性，因此这个特征可能对最后的预测结果非常重要，后期需要进行亚编码，或者直接0、1二值化
(6)对Pclass和Age一起分析

target = sns.FacetGrid(train,col='Survived',row='Pclass')
target.map(plt.hist,'Age',bins=20)

可以发现：

船票类型是3，年龄在15-40岁之间的乘客存活率很低
船票类型是2或3，年龄在0-15岁之间存活率很高
是否能存活与年龄和船票类型都有关，可以在特征工程时构造这样一个特征
还可以分析很多特征组合的特点，充分发挥你的想象力，脑洞大开，这里就不再分析了，进行下一个环节咯~

4.数据清洗、特征变换等

经过上面的分析，我们需要：

删掉PassengerId、Cabin这两个特征，Ticket这个特征貌似也没有太大的用处，这里也直接删除掉，然后对Age进行缺失值填充，这里用众数填充，Embarked也用众数填充，Fare只在测试集中有缺失，可以根据Pclass用训练集中的Fare均值进行填充
Embarked和Sex进行亚编码
Age分段和亚编码
Name提取称谓信息和亚编码

del train['PassengerId']
del train['Cabin']
del train['Ticket']
train = train.fillna({"Age":train.Age.mean(),'Embarked':"S"})
train['Name']=train['Name'].map(lambda line: line.split(",")[1].split(".")[0])
train.head()

发现称谓除了 Mr、 Miss、 Mrs、 Master，其他的都很少，所以这里把剩下的都统一改成other

train['Name']=train['Name'].map(lambda line: (line.strip() if line.strip() in ['Mr','Mrs','Miss','Master'] else 'other'))
train['Name'].value_counts()
train[['Survived','Name']].groupby(['Name']).mean().sort_values(by='Survived')

可以发现，Mrs和Miss的存活率更高，Mr的存活率最低，后续我们也要将这个特征亚编码后加入模型中训练
下面对Age进行分段，这里就直接根据前面的分析自己定义分段区间，有精力可以用决策树辅助分段，效果应该会更好

def age_parse(line):
    if line <=15:
        return '0-15'
    elif 15<line<=35:
        return '15-35'
    elif 35<line<=50:
        return '35-50'
    else:
        return '>50'
train['Age']=train['Age'].map(age_parse)
train.head()

下面对定性特征统一亚编码：

train = pd.get_dummies(train)
train.head()

#去除亚编码后线性相关变量
del train['Name_other']
del train['Age_>50']
del train['Embarked_S']
del train['Sex_female']

图1

特征标准化

由于Fare这个特征含有较大的数值，为了避免由于量纲带来的问题，我们将它进行标准化

from sklearn import preprocessing
scaler = preprocessing.StandardScaler().fit(np.array(train['Fare']).reshape(891,1))
fare = scaler.transform(np.array(train['Fare']).reshape(891,1))
train['Fare'] = fare
train.head()

注意: 测试集所有特征变换，特征清洗都是基于训练集来的，例如：如果训练集用训练集的A特征均值填充A特征的缺失值，那么测试集也要用训练集中A特征的均值填充缺失值，鉴于时间和精力有限，这里我只对训练集统一进行处理，测试集先不做处理，以后有时间再进行处理（捂脸），由于数据处理存在许多转换步骤，需要按一定的顺序执行，可以推荐用sklearn中的pipeline模块，可以对训练集和测试集统一数据处理，非常好用~

5.构造特征工程

这个环节就可以充分发挥你的想象力，构造与目标变量相关的线性特征、非线性特征、交叉特征等，可以构造很多，后面特征筛选的时候过滤掉就好，例如可以构造Age与Pclass的交叉特征，构造Pclass与称谓的交叉特征，sklearn也提供了相应的函数，如果有两个特征（x1,x2）,构造2次多项式特征，则完后会生成（1, X1, X2, X1^2, X1X2, X2^ 2），这里我直接用特征构造函数，直接构造所有特征的2次多项式特征(也可以构造3次或者更高次，可以看下效果对比，这里我就直接生成2次多项式特征了)

survived = train['Survived']
from sklearn import preprocessing
#构造2次多项式， 默认也是2次,设置参数include_bias= False，不包含偏差项数据
poly = preprocessing.PolynomialFeatures(2,include_bias=False)
poly_train = poly.fit_transform(train.drop(['Survived'],axis=1))
poly.get_feature_names()[0:20]
train_df =pd.DataFrame(poly_train)
train_df .columns=poly.get_feature_names()#特征重命名
train_df.head()

注意：这里的列名x0，x1...与图一中除了‘Survived’的列名是一一对应的，因为名称太长，所以会自动生成新的名字
生成了这么多特征，我们可以看一下他们与目标特征的相关性：

可以发现：
x0与x6，即Pclass与Name_mr相关性系数很高，x0与x10，即Pclass与Age_15-35相关性也很高，进一步查看下关系：

train_df[['Survived','x0','x6']].groupby(['x0','x6']).mean().sort_values(by='Survived')
train_df[['Survived','x0','x10']].groupby(['x0','x10']).mean().sort_values(by='Survived')

可以发现：

如果是Mr，那无论她的船票类型是什么，她的生存率都很高，但如果不是Mr，那只有他的船票类型是1等的时候，他的存活率才会较高，但还是没有Mr的高，因此这两个特征是非常重要的
如果年龄在15-35之间，只有船票类型是1等的时候存活率才会较高，因此这两个特征也是非常重要的
后续还可以再对其他的特征进行类似的分析~

6.建模、调参、模型评估

最后编辑于：2019.03.05 16:33:43

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 196,165评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,503评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,295评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,589评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,439评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,342评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,749评论 3赞 387
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,397评论 0赞 255
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,700评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,740评论 2赞 313
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,523评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,364评论 3赞 314
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,755评论 3赞 300
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,024评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,297评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,721评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,918评论 2赞 336

kaggle项目实战——泰坦尼克号船员存活率预测

1.下载理解数据集

2.加载查看数据分布、缺失、异常情况

3.数据探索，挖掘各个特征与目标特征之间的关系

4.数据清洗、特征变换等

特征标准化

5.构造特征工程

6.建模、调参、模型评估

推荐阅读更多精彩内容