第六周 Lecture 11
- 推荐方法
- 尽快使用一种方法实现,使用验证测试算法;
- 打印出学习曲线来决定是否要更多的训练数据;
- 误差分析:使用验证测试手工检查算法错在哪里(是欠拟合还是过拟合)
- 不对称性分类的误差评估
偏斜分类(skewed class):指 positive(y=1)对比negative(y=0)特别小
例如:y=1是得癌症的样本 y=0是正常的。
真实分类(actual class) 1 | 真实分类0 | |
---|---|---|
预测分类(predicted)1 | True Positive | False Positive |
预测分类0 | False negative | True negative |
- 精确度和召回率的权衡(trading off precision and recall)
对于逻辑回归(logistic regression)
predict 1 if
predict 0 if
predict 1 ifthreshold值大于0.5,更高的精确度,更低的召回率
threshold值越低(小于0.5),更低的精确度,更高的召回率
P: Precision(精确度)
R:Recall (召回率)
如果确定threshold?尽可能让F1 score值更大
- 机器学习的数据(Data for machine learning)
- 更多的数据可以抵消算法的差异。
"it's not who has the best algorithm that wins it's who has the most data" - 大数据应用的场景
特别多参数据(例如 逻辑回归/线性回归有特别多个特性,或神经网络有很多的隐藏层)