5、sklearn模型建立及评估

前置工作

填充数据

#读取数据
data = pd.read_csv('clear_data.csv') 
#对分类变量进行填充，填充值为‘NA’
train['Cabin'] = train['Cabin'].fillna('NA')  
# 对连续变量进行填充，填充值为该特征的平均值
train['Age'] = train['Age'].fillna(train['Age'].mean())
# 检查缺失值比例
train.isnull().mean().sort_values(ascending=False)
--------------------------------------------------------------
Embarked       0.0
Cabin          0.0
Fare           0.0
Ticket         0.0
Parch          0.0
SibSp          0.0
Age            0.0
Sex            0.0
Name           0.0
Pclass         0.0
Survived       0.0
PassengerId    0.0
dtype: float64

编码分类变量

#取出输入特征
data = train[['Pclass','Sex','Age','SibSp','Parch','Fare', 'Embarked']]
#对分类变量进行one-hot编码
data = pd.get_dummies(data)

划分数据集

X = data
y = train['Survived']
# 对数据集进行切割
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

模型搭建

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

#创建默认参数的逻辑回归模型
lr = LogisticRegression()  
# 默认参数的随机森林分类模型
rfc = RandomForestClassifier()
#使模型拟合数据
lr.fit(X_train, y_train)
rfc.fit(X_train, y_train)
# 输出模型的预测结果
pred = lr.predict(X_train)
print(pred[:10])
--------------------------------------------------------------
array([0, 1, 1, 1, 0, 0, 1, 0, 1, 1], dtype=int64)
# 预测标签概率
pred_proba = lr.predict_proba(X_train)
pred_proba[:10]

模型评估

模型评估是为了知道模型的泛化能力,主要指标有：
1、准确率，样本被预测正确的比例
2、精确率（precision）度量的是被预测为正例的样本中有多少是真正的正例
3、召回率（recall）度量的是正类样本中有多少被预测为正类
4、f-分数是准确率与召回率的调和平均

用5折交叉验证来评估逻辑回归模型的score
交叉验证（cross-validation）是一种评估泛化性能的统计学方法，它比单次划分训练集和测试集的方法更加稳定、全面。最常用的交叉验证是 k 折交叉验证，其中 k 是由用户指定的数字，通常取 5 或 10。

from sklearn.model_selection import cross_val_score

lr = LogisticRegression(C=100)
scores = cross_val_score(lr, X_train, y_train, cv=5)
scores.mean()

计算精确率、召回率以及f-分数

# 训练模型
lr = LogisticRegression(C=100)
lr.fit(X_train, y_train)
pred = lr.predict(X_train)
# 混淆矩阵
>> confusion_matrix(y_train, pred)  #[TN,FP
                                    #FN,TP]
array([[350,  62],                            
       [ 71, 185]], dtype=int64)
# 精确率、召回率以及f1-score
from sklearn.metrics import classification_report        
print(classification_report(y_train, pred)) 
------------------------------------------------------------
precision    recall  f1-score   support

          0       0.83      0.85      0.84       412
          1       0.75      0.72      0.74       256

avg / total       0.80      0.80      0.80       668

最后编辑于：2020.08.29 00:06:11