1. EM算法是求解含有隐变量的极大似然估计参数的迭代算法。
2. 极大似然估计可以用梯度下降法求解,但是如果概率分布中含有隐变量的时候,先求和再求log,再求导很难。
3. 对于每一轮的迭代,先找到当前函数的一个下界函数,如果我们找到让下界函数达到最大的参数,那么这个参数也一定能让原函数增大;
选取的这个下界函数有着很好的性质:先求log在求和,这样就比较好求导。
4. 理解这里的隐变量:
混合高斯分布:对于每个样本而言,隐变量指的是样本来自于哪一个高斯分布;
抛硬币:假设有3枚硬币,分别记做A,B,C。这些硬币正面出现的概率分别是π,p和q。进行如下掷硬币实验:先掷硬币A,根据其结果选出硬币B或C,正面选B,反面选硬币C;然后投掷选重中的硬币,出现正面记作1,反面记作0;独立地重复n次;观测变量Y,至于结果来自于B还是C无从得知,我们设隐变量Z来表示来自于哪个变量;
5. 推导:http://lanbing510.info/2015/11/12/Master-EM-Algorithm.html