在机器学习中,最重要的概念包括MLE(Maximum Likelihood Esitmate)和MAP(Maximum A Posterior)。
学过概率与统计的人,应该就是极大似然估计MLE,该方法假设要估计的参数为常数,从而求解最大似然函数问题,得到最优参数。
而MAP则是根据贝叶斯公式,认为要估计的参数为随机变量,概率密度最大处对应的参数值为最优参数。利用先验概率P(u),求得在观测X下的后验概率密度分布P(u|X)。(由于分母与u无关,仅仅代表归一化含义,因此可以不考虑)。
如果采用对数形式,可以发现,最大后验概率=最大似然+最大先验。从某种意义上,这就对应了Cost Function = Loss + Regularization。(是不是很神奇呢?)
举个例子,在Navie Bayes中的拉格朗日平滑方法就是最大后验(为不同的类别数量分别+1就对应着一种特殊的先验——共轭先验,有兴趣可以进一步了解)。
而且一般来讲,当数据量足够大的时候,我们对数据的分布有足够的信心的时候,这时先验所起的作用就很小,最大似然估计与最大后验估计效果基本一致,也就不需要所谓的专家系统(domain knowledge),这就是大数据的魅力。