正则化可以减轻过拟合问题。
欠拟合(underfitting)
高偏差(high bias)
合适
过拟合(overfitting)
高方差(high variance)
泛化(generalize):指假设模型能应用到新样本的能力。
在线性回归中:
在逻辑回归中:
特征太多,数据量太少,过度拟合就会发生:
解决过度拟合:
方法:
- 减少特征数量:
手动选择
使用模型选择算法(后面会讲) - 正则化(regularization)
保留所有的特征,但是减少参数θj的大小(magnitude/values)
当我们有很多特征的时候依然工作很好,并且每个特征都对预测y有一定的贡献