https://www.leiphone.com/news/201708/LEBNjZzvm0Q3Ipp0.html
https://www.leiphone.com/news/201708/iL1S8jkc4ytZFzHS.html
http://www.sohu.com/a/168371676_114877
线性空间(向量空间, 对数乘和向量加法封闭所组成的空间)--(定义范数)-->赋范线性空间(向量具有的长度)--(定义内积)-->内积空间(向量之间具有了角度)--(完备化)-->希尔伯特空间。
机器学习里面分两大类生成式和判别式,判别式的一个典型就是贝斯规则;生成式的方法跟判别式方法区别就是,生成式尽可能用模型去拟合它的联合分布,而判别式拟合的是一种条件分布。
贝叶斯学派和频率学派最大的不同、根上的不同,就是在于模型 y=wx+b 其中的w和b两个参数,频率学派认为参数是固定的,只要通过不停的采样、不停的观测训练,就能够估算参数w和b,因为它们是固定不变的;而贝叶斯学派相反,他们认为这些参数是变量,它们是服从一定的分布的,这是它最根本的差别。在这个基础上演变的最大似然估计、或者MAP等等的都不一样。这完全是两个不同的流派。
上面的公式是自信息的标准,直接就取一个对数而已,加上负号。熵就是把多种情况累加起来再取均值。
KL散度,基本上是衡量两个概率分布的差异。(注:信息论也可以形象起来,参考:colah's blog,Visual Information Theory)
下图KL散度,它是不对称的,就是说概率p和概率q的顺序调一下是不同的概念,两个顺序不同要用于不同的场景。它的目标是要构造一个概率分布 q,去近似拟合、去模拟另外一个概率分布p。这个p分布是由两个正态分布组合起来的,两个叠加起来。怎么用q拟合它呢,如果用左边的散度去度量,算分布之间的误差,这个误差对应的就是KL散度,然后根据KL散度去有方向地去调整。这是它的过程,类似于机器学习里面的过程。
如果用左边的KL散度,p在前q在后,那我们会得到这样一个结果;绿色的是拟合的概率。它的效果是保证在高概率的地方,拟合的概率要高,而不考虑低概率的部分,所以结果就会做一个平滑。概率的总和还是1,要保证归一性嘛。右边反过来,q在前p在后,那么低概率要优先保证,高概率就忽略了,那么这个拟合的概率分布就尽量往一个峰靠,只能保证一个峰。这就解释了KL散度不对称性的应用,可以按照不同的应用场景取不同的方向。