Kaggle Titanic乘客生还预测

各列数据的意义:

  1. PassengerId:乘客id
  2. Survived:是否生还
  3. Pclass:船票等级
  4. Name:姓名
  5. Sex:性别
  6. Age:年龄
  7. SibSp:登船兄弟姊妹/配偶数量
  8. Parch:登船父母/子女数量
  9. Ticket:船票号码
  10. Fare:船票价格
  11. Cabin:船舱
  12. Embarked:登船口
import pandas as pd
import numpy as np

# 加载训练数据
original_data = pd.read_csv("train.csv")
# 加载要预测的数据
original_predict_data = pd.read_csv("test.csv")
# 我们要预测的值是Survived,所以将其取出来。
y = original_data.Survived
original_data_without_survived = original_data.drop(["Survived"], axis=1)
# 由于数据分为训练数据和预测数据两个数据集,为了能以统一的方式处理数据,先将这两个数据集合并。
data = pd.concat([original_data_without_survived, original_predict_data], ignore_index=True)

1. 处理属性

有一些属性需要处理后才能用于训练模型。

1.1 PassengerId

PassengerId仅代表数据集中乘客的顺序,不影响乘客是否生还的结果,所以将其移除以防止影响预测结果。

data = data.drop(["PassengerId"], axis=1)

1.2 姓名

姓名属于标称属性,但每个人的姓名都不一样,这样并不好处理。检查数据发现每个姓名中都带有头衔,头衔的可能性较少,可以将其提取出来作为一个独立的属性来处理。

import re
name_title_pattern = re.compile(r'\w+\.')
# NameTitle的可能性为18个,与15相差不大,可适用one-hot编码。
data["NameTitle"] = data.Name.apply(lambda n: name_title_pattern.search(n).group())
# 去除姓名属性
data = data.drop(["Name"], axis=1)

1.3 性别

性别属于二元属性(只有男和女两种可能性),这里用“0”表示male,“1”表示female。

data["Sex"] = data.Sex.map({"male":0, "female":1})

1.4 船票号码

大多数的船票号码都是独立的,小部分号码是重复的。猜测拥有相同船票号码的乘客可能是同伴关系,因此将号码重复的次数作为一个独立的属性。

ticket_map = {}
for ticket in data.Ticket:
    if ticket in ticket_map:
        ticket_map[ticket] += 1
    else:
        ticket_map[ticket] = 1
data["Ticket"] = data.Ticket.apply(lambda t: ticket_map[t])

1.5 船舱

类似船票号码,大多数船舱都是独立唯一的。检查数据发现船舱首字母的重复性较高,猜测其代表船舱的区域,所以将其提取出来作为独立属性。

data["Cabin"] = data.Cabin.apply(lambda c: np.NaN if pd.isnull(c) else c[0])

1.6 船票等级

虽然船票等级属性为数值类型,但是可以将其看作分类属性。

pclass_names = ["A", "B", "C"]
data["PclassName"] = data.Pclass.apply(lambda x: pclass_names[x-1])
data = data.drop(["Pclass"], axis=1)

2. 处理缺失值

2.1 年龄

年龄丢失情况比较多,这里以pclass和性别进行分组,并取其中位数作为缺失值。

def get_default_age(pclass_name, sex):
    ages = data.Age[(data.PclassName == pclass_name) & (data.Sex == sex)]
    return ages.quantile(0.5)

data["Age2"] = data.apply(lambda r: get_default_age(r.PclassName, r.Sex) if pd.isnull(r.Age) else r.Age, axis=1)
# 将填充年龄的位置标记出来
data["AgeFill"] = data.apply(lambda r: 1 if pd.isnull(r.Age) else 0, axis=1)
# 将原本的年龄去除
data = data.drop(["Age"], axis=1)

2.2 船票价格

船票价格缺失值使用乘客所在等级的船票平均价格代替。

data["Fare"] = data.apply(lambda r: data.Fare[data.PclassName == r.PclassName].mean() if pd.isnull(r.Fare) else r.Fare, axis=1)

2.3 船舱

船舱缺失值太多,强行补充数据可能会为模型引入不必要的影响,所以将缺失值用“unknown”代替。

data["Cabin"] = data.Cabin.apply(lambda x: "unknown" if pd.isnull(x) else x)

2.4 登船口

缺失值使用出现频率最高的值代替。

# 出现频率最高的值是S
data["Embarked"] = data.Embarked.apply(lambda e: "S" if pd.isnull(e) else e)

3. one-hot编码

数据集中包含object类型的数据,不能直接用来训练模型。one-hot编码则是这种情况的常用解决方法,可以将object类型的数据转变成数值类型的数据。

data = pd.get_dummies(data)

4. 建立模型

4.1 训练模型

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import make_pipeline

train_y = y
train_X = data[:len(train_y)]

my_pipeline = make_pipeline(RandomForestClassifier(max_depth=5,
                                                   n_estimators=120))
my_pipeline.fit(train_X, train_y)
Pipeline(steps=[('randomforestclassifier', RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=5, max_features='auto', max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            n_estimators=120, n_jobs=1, oob_score=False, random_state=None,
            verbose=0, warm_start=False))])

4.2 预测并输出结果

predict_X = data[len(y):]
predict_y = my_pipeline.predict(predict_X)

ids = original_predict_data.PassengerId
submission = pd.DataFrame({
        "PassengerId": ids,
        "Survived": predict_y
    })
submission.to_csv('submission.csv', index=False)

最终结果:0.80382,排名前12%。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容