深度学习教材与论文中,概率视图,probability view,是一个重要的理解工具,对于一般开发人员学习过程是一个很大的障碍,障碍的根源恐怕首先不是概率公式,而是使用概率的思维基础观念是什么。这一点,对于领域内长期研究者来说可能不是问题,这也是文献中基本没有人去展开谈论这个问题的原因。
其实这是一个典型的贝叶斯主观概率思想的使用场景。
分类问题的概率公式,p(y|x):这里把输入x, 输出y当作两个随机变量(x当然一般是高维随机变量)。分类问题的目标就是要获得这个关于这两个随机变量的条件分布。要注意,这里并未涉及学习问题,只是用概率工具来表达分类机是什么。问题在于,有什么根据认为X和Y是随机变量呢?为什么当成随机变量来处理?这种处理起到什么作用?图片分类中,一张照片上是狗还是猫,照片(一个二维向量)是随机变量吗?狗和猫(一个二值变量)是随机变量吗?一张狗的照片,因为人一看就是狗,似乎是一种确定性关系,为什么要表述成随机变量之间的相关性呢?
所有这些问题的答案很简单:你把它看成随机变量,那它就是随机变量。这就是主观贝叶斯思想方法中的所谓主观。而它确实也为观察机器学习问题带来了有力的思想工具。其实这种思想在机器学习中的作用非常直接,因为机器除了观察到样本之外,没有任何人类所谓客观以及因果关系的先验知识,除非我们将某种prior传递给他,而这种prior也是以概率语言来表达。
可能更具困惑的是,模型参数。
模型参数也是随机变量,怎么理解?
首先,这时已经是在描述学习过程,也就是机器要根据观察到的一组带标签样本来“猜想”上述的p(y|x), 我们不难设想,仅仅根据观察到的一组样本现象,并不能确定性地获知组合分布是哪个,这仍然是一个“哪个最有可能是”的问题,因为有无数多的(x, y)分布可以产生这样的样本,只是有些组合分布以极其微小的概率产生它,有些以较大,很大的概率产生它,这个概率表示为那个组合分布的p(S),也就是这个组合分布下所观察到的样本集合发生的概率,可以进一步表示为
学习的目标,是要找到一个组合分布,这个组合分布使得样本集合出现的概率最大,也就是p(s)最大,也就是最大,后面还有进一步演算,但这不是关键,我们的目的是把贝叶斯主观概率在机器学习中的观念思想搞清楚。这时候,我们要找到一种组合分布,使得样本出现的概率最大,这个组合分布并不会被完全定义,而只需要p(s)最大即可。而这个组合分布实际上就是上文所说的分类推理机p(y|x), 这个推理机如果被表达为一个参数化的结构,比如神经网络,那它就可以用这个参数化结构的参数来定义。“找到一种组合分布”这个问题,就转化为找到一组参数,使得最大。
理解到这里,基本的观念障碍,应该就差不多过去了