无监督第四节:LDA(线性判别分析)及其和PCA的关系

LDA的全称是Linear Discriminant Analysis(线性判别分析),是一种supervised learning。因为是由Fisher在1936年提出的,所以也叫Fisher’s Linear Discriminant。

LDA通常作为数据预处理阶段的降维技术,其目标是将数据投影到低维空间来避免维度灾难(curse of dimensionality)引起的过拟合,同时还保留着良好的可分性。

2维情况

1.组间距离最大化

比较好的投影方式就是利用不同类别的数据的中心来代表这类样本在空间中的位置,考虑1个2分类问题。两类的均值向量为:

v2-3d964b8d9ab49c43010a4bcdbb7fe597_720w.png

同时保证让投影之后的中心距离尽可能的大,也就是:

img
v2-37f15325e11cebbc161cab0c6a73ec99_720w.png

是来自类别 i的投影数据的均值,w^T是我们的投影向量。但是,通过增大w,这个表达式可以任意增大。为了解决这个问题,我们可以将w限制为单位长度,即 \sum_iw_i^2=1
使用拉格朗日乘数法来进行有限制条件的最大化问题的求解,我们可以发现w

2.组内距离最小化

这个方法有一个问题,如下图所示:

img

左图为最大间隔度量的降维结果,这幅图中的两个类别在原始空维空间(x1; x2)中可以完美地被分开,但是当投影到连接它们的均值的直线上时,就有了一定程度的重叠。

因此,Fisher提出的思想:最大化一个函数,这个函数能够让类均值的投影分开得较大,同时让每个类别内部的方差较小,从而最小化了类别的重叠(右图中的结果)。

这也是LDA的中心思想即:最大化类间距离,最小化类内距离。

我们假设投影结束后,样本的坐标为y,即y=w^Tx,那么来自类别C_k的数据经过变换后的类内方差为:

img

我们可以把整个数据集的总的类内方差定义为\widetilde s_2^1-\widetilde s_2^2。Fisher准则根据类间距离和类内方差的比值定义,即:

img

根据\widetilde \mu_k=w^T\mu_k,以及 y=w^Tx,对上式子进行改写,\widetilde \mu_1-\widetilde \mu_2通过:

image.png

\widetilde s_2^1-\widetilde s_2^2通过下式:

img

(W)可以被重写为:

img

其中 S_B是类间(between-class)散度矩阵,形式为

image.png

S_W被称为类内(within-class)散度矩阵,形式为:

image.png

对公式J(W)关于w求导,并另之为0,我们发现J(w)取得最大值的条件为:

img

实际上恰好就是倒数的分母。由于 w^TS_Bww^TS_Ww在简化的二分类问题中都是标量,因此我们可以把上式子看做:

img

(或者将分母限定在模为1,利用拉格朗日求解也可以得到上式,具体参考周志华《机器学习》)

将求导后的结果两边都乘以 S_W^{-1}可得:

img

从这里就可以看出,是一个求特征值和特征向量的问题了。

具体的,对于我们在引出中提出的简化问题,由于:

img

因此S_Bw的方向始终为\mu_2-\mu_1,故可以用 \lambda{\mu_2-\mu_1}来表示,因此我们可以得到:

img

由于对w扩大缩小任何倍不影响结果,因此我们可得:

img

我们只需要求出原始样本的均值和方差就可以求出最佳的方向w,这就是Fisher于1936年提出的线性判别分析。

多维情况

多维情况下类内的方差可以用同样的方式定义。但是类间的方差无法和之前一样。

考虑下图的情形,定义了一个全局散度。

img

image.png

表示全局的散度,其中n表示数据集中所有的点表示所有数据点的均值向量。

从这个式子我们可以看出,其物理意义就是定义了每个类别到全局中心的距离,我们要让类间分离的足够开,就需要让每个类别的样本再投影后,距离全局中心足够远。

LDA 求解步骤

  1. 计算每个类别的均值向量
  2. 通过均值向量,计算类间散度矩阵和类内散度矩阵
  3. 进行特征值求解,计算特征向量和特征值
  4. 按特征值大小对特征向量排序,选择前K个特征向量组成投影矩阵。
  5. 计算新空间的值

LDA 和PCA区别

LDA用于降维,和PCA有很多相同,也有很多不同的地方,因此值得好好的比较一下两者的降维异同点。

相同点:

1)两者均可以对数据进行降维。

2)两者在降维时均使用了矩阵特征分解的思想。

3)两者都假设数据符合高斯分布。

不同点:

1)LDA是有监督的降维方法,而PCA是无监督的降维方法

2)LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。

3)LDA除了可以用于降维,还可以用于分类。

4)LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。

这点可以从下图形象的看出,在某些数据分布下LDA比PCA降维较优。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE4OTQxNzEz,size_16,color_FFFFFF,t_70.png

当然有些情况下可能PCA会更好:

0?wx_fmt=png

LDA算法的主要优点有:

1)在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识。

2)LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优。

LDA算法的主要缺点有:

1)LDA不适合对非高斯分布样本进行降维,PCA也有这个问题。

2)LDA降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。

3)LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好。

4)LDA可能过度拟合数据。

Reference:

https://blog.csdn.net/qq_18941713/article/details/90697375

https://zhuanlan.zhihu.com/p/27899927

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 198,932评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,554评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 145,894评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,442评论 1 268
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,347评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,899评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,325评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,980评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,196评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,163评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,085评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,826评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,389评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,501评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,753评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,171评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,616评论 2 339

推荐阅读更多精彩内容