机器学习菜鸟,记录一些数学笔记,方便自己阅读和理解。
期望E的下标
- 将下标符号中的变量作为条件
例子一:
例子二:
- 将下标符号中的变量用作计算平均
例子一:
例子二:
例子三:
期望的一些公式
- 离散型:
- 连续性 :
- 如果是连续型随机变量,那么随机变量函数 的数学期望是
- 二维随机变量 的分布律为, 对于, 数学期望为
- 二维随机变量 的密度函数, 数学期望为
- 如果随机变量相互独立
条件分布
- 连续性随机变量, 二维随机变量的联合密度函数为, 边缘密度函数分别为, 在的条件下, 的条件密度函数为. 在的条件下, 的条件密度函数为.
- 从以上两个式子可知:,
- 也就是说,连续场合下的全概率公式:,
- 因此,连续场合下的贝叶斯公式是; . ,
- 一些公式
. 这是因为,我们可以将 看作是的函数,给定一个条件,就产生一个确定的的值, 说明该随机变量的概率依赖于, 则概率密度函数为, 从而,期望是变量和概率密度函数的积分。
-是离散型随机变量:
- -是连续型随机变量:
条件期望
- 在的条件下, 的期望.
- 和离散场合下:
- 是连续, 是离散场合下:
- 都是连续性随机变量, 联合密度函数为, 的密度函数为, 的条件密度函数概率, 则
- 在的条件下, 的期望.
离散场合下:
连续场合下:
先验、后验、似然和贝叶斯
- 首先, 我们熟知的贝叶斯是这样的;
, 即
我们可以把理解为原因(模型参数), 理解为结果(样本). 是似然分布, 是后验概率, 是证据, 是先验分布.
- 一般来说, 先验代表的是人们抽样前对参数的认识(的估计), 后验代表的人们抽样之后对参数的认识,所以后验可以理解为根据抽样信息对先验的调整。
最大似然
-
首先区分概率和统计: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数
- 概率:已知一个模型和参数,预测模型产生结果的特性(均值、方差等)。 比如,我想研究养花(模型),然后想好了买啥化,怎么养(参数),最后这花养的到底怎么样(结果)
- 统计:利用数据推断模型的和参数。我有很多花,想根据品相判断咋样的。
-
: 表示一个具体的数据, 表示模型的参数。
- 如果 已知,是变量,这个叫做概率函数
- 如果 已知,是变量,这个叫做似然函数
似然的本质是说,利用已知样本的信息,得到最大概率导致这些样本出现的模型参数。比如,我扔10次硬币,得到一组数据(),结果6次正面朝上,那根据最大似然,我模型的参数是最有可能得到6次正面朝上的参数, 即,
我就求使这个函数的值最大就行. , 即
最大后验
- 有人说,硬币正面朝上应该是0.5的概率,这就是我们引入了先验的思想。
- 最大似然是求使得最大。 最大后验是求的使得 最大, 不止似然最大,而且是在先验的时候最大(这有点像正则化里加惩罚项的思想,不过正则化里是利用加法,而最大后验里是利用乘法)。 即
这里面就是样本本身,是一个已知值。 当我们认为认为是均匀分布时(就是没提供啥有用的信息进来),似然=后验。
最大化似然的公式:
最大后验公式:
- 由于 中的, 在给定任意的时总是常数, 对没有任何影响,所以不影响求极值。 最大化最大后验的公式为:
因此最大化后验就是在最大化似然函数之上加了一个先验分布, 所以当先验为均匀分布时(也就是信息确实),两者相等。
经验风险最小化和结构风险最小化
经验风险最小化与结构风险最小化是对于损失函数而言的。可以说经验风险最小化只侧重训练数据集上的损失降到最低;而结构风险最小化是在经验风险最小化的基础上约束模型的复杂度,使其在训练数据集的损失降到最低的同时,模型不至于过于复杂,相当于在损失函数上增加了正则项,防止模型出现过拟合状态。这一点也符合奥卡姆剃刀原则:如无必要,勿增实体。
经验风险最小化可以看作是采用了极大似然的参数评估方法,更侧重从数据中学习模型的潜在参数,而且是只看重数据样本本身。这样在数据样本缺失的情况下,很容易管中窥豹,模型发生过拟合的状态;结构风险最小化采用了最大后验概率估计的思想来推测模型参数,不仅仅是依赖数据,还依靠模型参数的先验假设。这样在数据样本不是很充分的情况下,我们可以通过模型参数的先验假设,辅助以数据样本,做到尽可能的还原真实模型分布。
信息熵
- 信息熵的定义:
香农熵的本质是香农信息量的期望,代表了一个系统的不确定性,信息熵越大, 不确定性越大。 是一个事件的概率,概率越大,不确定性越小。
交叉熵
-
为真实分布,为非真实分布,交叉熵越低,意味着约接近
相对熵(KL散度)
- 衡量两个分布之间的差异,相对熵就是交叉熵减去信息熵
互信息
- 互信息在信息论和机器学习中非常重要,其可以评价两个分布之间的距离,这主要归因于其对称性,假设互信息不具备对称性,那么就不能作为距离度量。即相对熵,由于不满足对称性,故通常说相对熵是评价分布的相似程度,而不会说距离。
- 互信息的定义:一个随机变量由于已知另一个随机变量而减少的不确定性。
联合熵
条件熵
- 条件熵的定义为:在X给定条件下,Y的条件概率分布的熵对X的数学期望。
因此,
变分推断
看了这个, 我觉得目前写的最清楚的
重参
- 一直不是很理解,为什么VAE中采样的结果不可导,需要重参。 看了这个才明白。
EM算法
看了这个, 我觉得目前写的最清楚的