前置工作
填充数据
#读取数据
data = pd.read_csv('clear_data.csv')
#对分类变量进行填充,填充值为‘NA’
train['Cabin'] = train['Cabin'].fillna('NA')
# 对连续变量进行填充,填充值为该特征的平均值
train['Age'] = train['Age'].fillna(train['Age'].mean())
# 检查缺失值比例
train.isnull().mean().sort_values(ascending=False)
--------------------------------------------------------------
Embarked 0.0
Cabin 0.0
Fare 0.0
Ticket 0.0
Parch 0.0
SibSp 0.0
Age 0.0
Sex 0.0
Name 0.0
Pclass 0.0
Survived 0.0
PassengerId 0.0
dtype: float64
编码分类变量
#取出输入特征
data = train[['Pclass','Sex','Age','SibSp','Parch','Fare', 'Embarked']]
#对分类变量进行one-hot编码
data = pd.get_dummies(data)
划分数据集
X = data
y = train['Survived']
# 对数据集进行切割
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)
模型搭建
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
#创建默认参数的逻辑回归模型
lr = LogisticRegression()
# 默认参数的随机森林分类模型
rfc = RandomForestClassifier()
#使模型拟合数据
lr.fit(X_train, y_train)
rfc.fit(X_train, y_train)
# 输出模型的预测结果
pred = lr.predict(X_train)
print(pred[:10])
--------------------------------------------------------------
array([0, 1, 1, 1, 0, 0, 1, 0, 1, 1], dtype=int64)
# 预测标签概率
pred_proba = lr.predict_proba(X_train)
pred_proba[:10]
模型评估
模型评估是为了知道模型的泛化能力,主要指标有:
1、准确率,样本被预测正确的比例
2、精确率(precision)度量的是被预测为正例的样本中有多少是真正的正例
3、召回率(recall)度量的是正类样本中有多少被预测为正类
4、f-分数是准确率与召回率的调和平均
用5折交叉验证来评估逻辑回归模型的score
交叉验证(cross-validation)是一种评估泛化性能的统计学方法,它比单次划分训练集和测试集的方法更加稳定、全面。最常用的交叉验证是 k 折交叉验证,其中 k 是由用户指定的数字,通常取 5 或 10。
from sklearn.model_selection import cross_val_score
lr = LogisticRegression(C=100)
scores = cross_val_score(lr, X_train, y_train, cv=5)
scores.mean()
计算精确率、召回率以及f-分数
# 训练模型
lr = LogisticRegression(C=100)
lr.fit(X_train, y_train)
pred = lr.predict(X_train)
# 混淆矩阵
>> confusion_matrix(y_train, pred) #[TN,FP
#FN,TP]
array([[350, 62],
[ 71, 185]], dtype=int64)
# 精确率、召回率以及f1-score
from sklearn.metrics import classification_report
print(classification_report(y_train, pred))
------------------------------------------------------------
precision recall f1-score support
0 0.83 0.85 0.84 412
1 0.75 0.72 0.74 256
avg / total 0.80 0.80 0.80 668