07 特征工程 - 特征降维 - PCA

06 特征工程 - 特征选择

特征降维必须在特征选择做完以后才能进行。

当特征选择完成后,可以直接可以进行训练模型了,但是可能由于特征矩阵过大,导致计算量比较大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。

常见的降维方法除了基于L1的惩罚模型外,还有主成分析法(PCA)线性判别分析法(LDA),这两种方法的本质都是将原始数据映射到维度更低的样本空间中

但是采用的方式不同,PCA是为了让映射后的样本具有更大的发散性,LDA是为了让映射后的样本有最好的分类性能

除了使用PCA和LDA降维外,还可以使用主题模型来达到降维的效果。主题模型主要还是用在自然语言处理中的。如果找到一个互联网产品的用户日志还用主题模型去降维那效果就非常不好了,这个时候还是要用PCA和LDA来处理。

在实际的机器学习项目中,特征选择/降维是必须进行的,因为在数据中存在以下几个方面的问题:
1、数据的多重共线性:特征属性之间存在着相互关联关系。多重共线性会导致解的空间不稳定,从而导致模型的泛化能力弱;
2、高纬空间样本具有稀疏性,导致模型比较难找到数据特征;
3、过多的变量会妨碍模型查找规律;
4、仅仅考虑单个变量对于目标属性的影响可能忽略变量之间的潜在关系。

PCA降维: 新数据是原数据的一个线性表达,如下图:

降维后的数据Z11,其实已经包含了原数据x1~xn之间的某些潜在关系

通过降维的目的是:
1、减少特征属性的个数。
2、确保特征属性之间是相互独立的。


降维-PCA

主成分分析(PCA): 将高纬的特征向量合并成为低纬度的特征属性,是一种无监督的降维方法。

n_components:产生新特征的个数。
另外explained_variance_ratio_等重要方法,参考:scikit-learn PCA类介绍


PCA原理

PCA(Principal Component Analysis)是常用的线性降维方法,是一种无监督的降维算法。算法目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并且期望在所投影的维度上数据的方差最大(最大方差理论),以此使用较少的数据维度,同时保留较多的原数据点的特性。

通俗来讲的话,如果将所有点映射到一起,那么维度一定降低下去了,但是同时也会将几乎所有的信息(包括点点之间的距离等)都丢失了,而如果映射之后的数据具有比较大的方差,那么可以认为数据点则会比较分散,这样的话,就可以保留更多的信息。从而我们可以看到PCA是一种丢失原始数据信息最少的无监督线性降维方式。

在PCA降维中,数据从原来的坐标系转换为新的坐标系,新坐标系的选择由数据本身的特性决定。
第一个坐标轴选择原始数据中方差最大的方向,从统计角度来讲,这个方向是最重要的方向;
第二个坐标轴选择和第一个坐标轴垂直或者正交的方向;
第三个坐标轴选择和第一个、第二个坐标轴都垂直或者正交的方向;
该过程一直重复,直到新坐标系的维度和原始坐标系维度数目一致的时候结束计算。
而这些方向所表示的数据特征就被称为“主成分”

PS: WTxi 中的WT是一个线性变换,通过这个向量,使得上图左边的样子变成了右边的样子。

假设X是已经中心化(z-score)过的数据矩阵,每列一个样本(每行一个特征);样本点xi在新空间中的超平面上的投影是:WTxi;若所有样本点的投影能够尽可能的分开,则表示投影之后的点在各个维度上的方差应该最大化,那么投影样本点的各个维度方差和可以表示为:

对用的就是中心化(z-score)的思想

为什么要中心化?

从而我们可以得到PCA的最优目标函数是:

在PCA的目标函数基础上,带入拉格朗日求解最终,可以得到最终的拉格朗日函数函数为:

对拉格朗日函数求偏导数0:

可以发现如果,此时将XXT看成一个整体A,那么求解W的过程恰好就是求解矩阵A的特征向量的过程,所以我们可以认为PCA的计算其实就是对进行去中心化后的数据的协方差矩阵求解特征值和特征向量。


PCA的执行过程

输入: 样本集X={x1,x2,...,xn};每个样本有m维特征,X是一个m行n列的矩阵。
步骤:
1、数据中心化:对X中的每一行(即一个特征属性)进行零均值化,即减去这一行的均值。
2、求出数据中心化后矩阵X的协方差矩阵(即特征与特征之间的协方差构成的矩阵)
3、求解协方差矩阵的特征值和特征向量
4、将特征向量按照特征值从大到小按列进行排列称为矩阵,获取最前面的k列数据形成矩阵W。
5、利用矩阵W和样本集X进行矩阵的乘法得到降低到k维的最终数据矩阵。


PCA案例


PCA降维的SVD求解方式

PCA的求解相当于是求解XXT的特征向量和特征值的求解。

而且此时恰好XXT是对角矩阵,所以我们可以将其进行特征分解:

另外对矩阵X进行SVD矩阵分解,那么可以得到下列式子:

08 特征工程 - 特征降维 - IDA

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容