1、贝叶斯决策论
贝叶斯决策论是在概率框架下试试决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记,下面以多分类任务来解释其基本原理。
假设有N种可能的类别标记,λij是将一个真实标记为cj的样本误分类为ci所产生的损失,基于后验概率P(ci|x)可获得将样本x分类为xi所产生的期望损失,那么样本x上的条件风险(conditional risk)为:
我们的任务是寻找一个判定准则h,X->Y以最小化总体风险:
显然,对每个样本来说,若h能最小化条件风险R(h(x)|x),则总体风险R(h)也将被最小化,这就产生了贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择那个能使条件风险R(c|x)最小的类别标记,即:
此时h称为贝叶斯最优分类器,与之对应的总体风险R(h) 被称为贝叶斯风险。1-R(h*) 反映了分类其所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。
具体来说,若目标是最小化分类错误率,则误判损失λij可写为:
此时条件风险:
于是,最小化分类错误率的贝叶斯最优分类器为:
即对每个样本x,选择能使后验概率P(c|x)最大的类别标记。
不难看出,欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c|x),然后,在现实任务中这通常难以直接获得。从这个角度看,机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率P(c|x)。大体来说,主要有两种策略:给定x,可通过直接建模P(c|x)来预测c,这样得到的是判别式模型;也可以先对联合概率分布P(c,x)建模,然后由此得到P(c|x),这样得到的是生成式模型。