分类算法常见的评估指标如下:
对于二类分类器/分类算法,评价指标主要有accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线。
对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。
对于回归预测类常见的评估指标如下:
平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), R2(R-Square)
做比赛的流程:先写baseline,然后在baseline上面改。
baseline构建流程:
1、导入数据
2、看shape、head()、info()、describe()。
简单的EDA,发现数据是否有异常、train和test的分布是否接近。分布一致的话,模型的泛化效果好。如果分布不一致,就要通过采样的方式,使训练集跟测试集分布一致。
3、特征工程
非数值列,需要做一些encoding。将数值类型的特征列名提取出来。由于是baseline,这里粗选了几个特征。后面需要做进一步的扩充。
4、缺失值填补
如果用线性回归、svm,需要全部填补,如果用xgb,可以不用填补。
5、查看标签的分布信息
train和test需要相似的分布
6、模型的训练和预测
a)可以利用xgb进行五折交叉验证查看模型的参数效果。可以手动调参试试看效果。
b)或者定义xgb和lgb两种模型,如果数据集小,或者时间充足,可以定义网格搜索的调参方式。然后直接split切分数据,一般0.2的测试集。分别使用xgb和lgb进行训练和预测。
7、模型融合
加权融合,误差小的权重大。还要再加上一个赋值处理,如果预测出来小于0,就给赋值10。
8、预测需要提交的数据
将数据格式要整理成规定的格式。