针对数据量缺乏的场景,生成模型则可以帮助生成数据,提高数据数量,从而利用半监督学习提升学习效率。语言模型(language model)是生成模型被广泛使用的例子之一,通过合理建模,语言模型不仅可以帮助生成语言通顺的句子,还在机器翻译、聊天对话等研究领域有着广泛的辅助应用。
最大似然法
那么,如果有数据集S={x1,…xn},如何建立一个关于这个类型数据的生成模型呢?最简单的方法就是:
假设这些数据的分布P{X}服从g(x;θ),在观测数据上通过最大化似然函数得到θ的值,即最大似然法:
什么是Maximum Likelihood Estimate?
利用已知的样本结果(已经发生),反推最有可能(最大概率)导致这样结果的参数值。
即使得已经发生的事件的概率最大化。
前提假设:就是所有的采样都是独立同分布的
为何使用对数ln:因为ln把乘法变成加法了,且不会改变极值的位置(单调性保持一致嘛)这样求导会方便很多。
最小二乘法 Least square
Least Square 的解析解可以用 Gaussian 分布以及最大似然估计求得
最小二乘:找到一个(组)估计值,使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的,但绝对值在数学上求最小值比较麻烦,因而替代做法是,找一个(组)估计值,使得实际值与估计值之差的平方加总之后的值最小,称为最小二乘。“二乘”的英文为least square,其实英文的字面意思是“平方最小”。这时,将这个差的平方的和式对参数求导数,并取一阶导数为零,就是OLSE。
更正:并非因为绝对值符号麻烦二用残差平方和,而是由最大似然估计推推导出来的。由中心极限定理知,残差呈高斯分布,经推导残差平方和最小时拟合最优。
作者:知乎用户
链接:https://www.zhihu.com/question/20447622/answer/23848605
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。