各列数据的意义:
- PassengerId:乘客id
- Survived:是否生还
- Pclass:船票等级
- Name:姓名
- Sex:性别
- Age:年龄
- SibSp:登船兄弟姊妹/配偶数量
- Parch:登船父母/子女数量
- Ticket:船票号码
- Fare:船票价格
- Cabin:船舱
- Embarked:登船口
import pandas as pd
import numpy as np
# 加载训练数据
original_data = pd.read_csv("train.csv")
# 加载要预测的数据
original_predict_data = pd.read_csv("test.csv")
# 我们要预测的值是Survived,所以将其取出来。
y = original_data.Survived
original_data_without_survived = original_data.drop(["Survived"], axis=1)
# 由于数据分为训练数据和预测数据两个数据集,为了能以统一的方式处理数据,先将这两个数据集合并。
data = pd.concat([original_data_without_survived, original_predict_data], ignore_index=True)
1. 处理属性
有一些属性需要处理后才能用于训练模型。
1.1 PassengerId
PassengerId仅代表数据集中乘客的顺序,不影响乘客是否生还的结果,所以将其移除以防止影响预测结果。
data = data.drop(["PassengerId"], axis=1)
1.2 姓名
姓名属于标称属性,但每个人的姓名都不一样,这样并不好处理。检查数据发现每个姓名中都带有头衔,头衔的可能性较少,可以将其提取出来作为一个独立的属性来处理。
import re
name_title_pattern = re.compile(r'\w+\.')
# NameTitle的可能性为18个,与15相差不大,可适用one-hot编码。
data["NameTitle"] = data.Name.apply(lambda n: name_title_pattern.search(n).group())
# 去除姓名属性
data = data.drop(["Name"], axis=1)
1.3 性别
性别属于二元属性(只有男和女两种可能性),这里用“0”表示male,“1”表示female。
data["Sex"] = data.Sex.map({"male":0, "female":1})
1.4 船票号码
大多数的船票号码都是独立的,小部分号码是重复的。猜测拥有相同船票号码的乘客可能是同伴关系,因此将号码重复的次数作为一个独立的属性。
ticket_map = {}
for ticket in data.Ticket:
if ticket in ticket_map:
ticket_map[ticket] += 1
else:
ticket_map[ticket] = 1
data["Ticket"] = data.Ticket.apply(lambda t: ticket_map[t])
1.5 船舱
类似船票号码,大多数船舱都是独立唯一的。检查数据发现船舱首字母的重复性较高,猜测其代表船舱的区域,所以将其提取出来作为独立属性。
data["Cabin"] = data.Cabin.apply(lambda c: np.NaN if pd.isnull(c) else c[0])
1.6 船票等级
虽然船票等级属性为数值类型,但是可以将其看作分类属性。
pclass_names = ["A", "B", "C"]
data["PclassName"] = data.Pclass.apply(lambda x: pclass_names[x-1])
data = data.drop(["Pclass"], axis=1)
2. 处理缺失值
2.1 年龄
年龄丢失情况比较多,这里以pclass和性别进行分组,并取其中位数作为缺失值。
def get_default_age(pclass_name, sex):
ages = data.Age[(data.PclassName == pclass_name) & (data.Sex == sex)]
return ages.quantile(0.5)
data["Age2"] = data.apply(lambda r: get_default_age(r.PclassName, r.Sex) if pd.isnull(r.Age) else r.Age, axis=1)
# 将填充年龄的位置标记出来
data["AgeFill"] = data.apply(lambda r: 1 if pd.isnull(r.Age) else 0, axis=1)
# 将原本的年龄去除
data = data.drop(["Age"], axis=1)
2.2 船票价格
船票价格缺失值使用乘客所在等级的船票平均价格代替。
data["Fare"] = data.apply(lambda r: data.Fare[data.PclassName == r.PclassName].mean() if pd.isnull(r.Fare) else r.Fare, axis=1)
2.3 船舱
船舱缺失值太多,强行补充数据可能会为模型引入不必要的影响,所以将缺失值用“unknown”代替。
data["Cabin"] = data.Cabin.apply(lambda x: "unknown" if pd.isnull(x) else x)
2.4 登船口
缺失值使用出现频率最高的值代替。
# 出现频率最高的值是S
data["Embarked"] = data.Embarked.apply(lambda e: "S" if pd.isnull(e) else e)
3. one-hot编码
数据集中包含object类型的数据,不能直接用来训练模型。one-hot编码则是这种情况的常用解决方法,可以将object类型的数据转变成数值类型的数据。
data = pd.get_dummies(data)
4. 建立模型
4.1 训练模型
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import make_pipeline
train_y = y
train_X = data[:len(train_y)]
my_pipeline = make_pipeline(RandomForestClassifier(max_depth=5,
n_estimators=120))
my_pipeline.fit(train_X, train_y)
Pipeline(steps=[('randomforestclassifier', RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
max_depth=5, max_features='auto', max_leaf_nodes=None,
min_impurity_split=1e-07, min_samples_leaf=1,
min_samples_split=2, min_weight_fraction_leaf=0.0,
n_estimators=120, n_jobs=1, oob_score=False, random_state=None,
verbose=0, warm_start=False))])
4.2 预测并输出结果
predict_X = data[len(y):]
predict_y = my_pipeline.predict(predict_X)
ids = original_predict_data.PassengerId
submission = pd.DataFrame({
"PassengerId": ids,
"Survived": predict_y
})
submission.to_csv('submission.csv', index=False)
最终结果:0.80382,排名前12%。