主成份分析算法 PCA

PCA 算法主要是把高维度的数据降为低维度数据。典型地应用包括数据压缩和数据可视化。本文介绍 PCA 算法及其典型应用。
今天简书有点问题,公式的图片老是上传不成功,感兴趣的移步 http://blog.kamidox.com/pca.html

维数约减

维数约减 (Dimensionality Reduction) 是把高维度数据损失最小的情况下转换为低维度数据的动作。

动机:为什么需要维数约减

动机一:数据压缩

维数约减即减少数据的维度,比如从 2 维降成 1 维,从 3 维降成 2 维等。好处是节省内存,提高运算速度。比如,我们有多个特征,其中两个特征的相关性非常大,一个是用 cm 测量的长度,另外一个是用 inch 测量的长度 (实际上这可能是个真实的例子,因为一个实际问题可能有 1000 个特征,而采集这些特征的工程师可能不是同一个人,这样他们采集回来的数据就可能存在重复,即高相关性)。那么我们可以把这两个高相关性的特征用一条直线来表示,$x^{(i)} = {x_1^{(i)}, x_2^{(i)}}$ 简化为 $z^{(i)} = {z_1^{(i)}}$。相同的原理,如果在一个 3 维空间里,一些点基本分布在一个平面上,那么就可以把 3 维降成 2 维,即 $x^{(i)} = {x_1^{(i)}, x_2^{(i)}, x_3^{(i)}}$ 简化为 $z^{(i)} = {z_1^{(i)}, z_2^{(i)}}$。

数据压缩
数据压缩

上图示例的就是把用英寸测量的特征和用厘米测量的特征合并起来的示意图。这里有个问题,为什么按 inch 测量的特征和按 cm 测量的特征不是在同一条直线上,而是在一条直线周围波动?实际上这个是正常的,因为测量的人和误差等方面的原因,会导致特征采集时数据会在误差范围内波动。

动机二:数据可视化

比如考查一个国家的经济状况,可能会有 50 个特征,经济总量,人均 GDP,出口值,进口值等等。如果想要直观地观察多个特征之间的关系,就比较难办。因为我们很难画出 50 个特征的图出来。这个时候,我们可以把 50 个特征简化为 2 维或 3 维的数据,然后画出 2D 或 3D 图出来,就可以直观地观察这些数据的样子。

主成份分析法

主成份分析法简称 PCA (Principal Component Analysis),这是目前最常用和流行的数据降维方法。

假设需要把 2 维数据降为 1 维数据时,我们需要找出一个向量 $u^{(1)}$ ,以便让 2 维数据的点在这个向量所在的直线上的投射误差最小

PCA - 2D to 1D
PCA - 2D to 1D

上图中,我们的目标就是找到红色的向量所在的直线,以便让所有黑色的点到这条直线的平均距离最短,这样我们就可以把原来在二维平面上的点映射到在红色直线所在的一维直线上的绿色的点来表示。即把二维数据降为一维数据。

假如需要把 3 维数据降为 2 维数据时,我们需要找出两个向量 $u^{(1)}, u^{(2)}$,以便让 3 维数据的点在这两个向量所决定的平面上的投射误差最小。

从数学角度更一般地描述 PCA 算法,当我们需要从 n 维数据降为 k 维数据时,我们需要找出 k 个向量 $u^{(1)}, u^{(2)}, ... , u^{(k)}$ ,把 n 维的数据投射到这 k 个向量决定的线性空间里,最终使投射误差最小化的过程。

PCA 算法主要步骤

步骤一:数据归一化和缩放

在进行 PCA 算法前,需要对数据进行预处理。预处理包括两个步骤:

  • 数据归一化 (Mean Normalization):使数据的均值为零。加快 PCA 运算速度。
  • 数据缩放 (Feature Scaling):使不同的特征数值在同一个数量级。

数据归一化公式为:

$$
z_j^{(i)} = x_j^{(i)} - \mu_j
$$

其中,$\mu_j$ 是训练样本中第 j 个特征 ($x_j^{(i)}$) 的平均值。然后用 $z_j^{(i)}$ 代替 $x_j^{(i)}$ 进行 PCA 运算。

接着对数据进行缩放,缩放只在不同特征数据不在同一个数量级上时才使用。

$$
x_j^{(i)} = \frac{x_j^{(i)} - \mu_j}{s_j}
$$

其中,$\mu_j$ 是训练样本中第 j 个特征 ($x_j^{(i)}$) 的平均值

$$
\mu_j = \frac{1}{m} \sum_{i=1}^m x_j^{(i)}
$$

$s_j$ 是训练样本中第 j 个特征 ($x_j^{(i)}$) 的范围,即 $s_j = max(x_j^{(i)}) - min(x_j^{(i)})$。

步骤二:计算协方差矩阵的特征向量

数据预处理完,我们需要计算协方差矩阵 (Covariance Matrix),用大写的 Sigma 表示 (大写的 Sigma 和累加运算符看起来几乎一样,但这里其实是一个数学符号而已,不是累加运算):

$$
\Sigma = \frac{1}{m} \sum_{i=1}^m (x^{(i)}) (x{(i)})T
$$

如果把训练样例用行向量来表示,那么 X 将是一个 m x n 的矩阵,m 是训练样例个数,n 是特征个数。向量化计算 Sigma 的公式将是:

$$
\Sigma = \frac{1}{m} X^T X
$$

计算结果 Sigma 将是一个 n x n 矩阵。接着,计算协方差矩阵的特征向量 (eigenvectors)

$$
[U, S, V] = svd(Sigma)
$$

svd 是奇异值分解 (Singular Value Decomposition),是高级线性代数的内容。在 Octave 里,也可以使用 eig 函数来求解协方差矩阵的特征向量。这里,Sigma 是 n x n 矩阵,经过 svd 运算后,我们真正关心的是 U。它是一个 n x n 矩阵。如果我们选择 U 的列作为向量,那么我们得到 n 个列向量 $u^{(1)}, u^{(2)}, ... , u^{(n)}$,我们如果需要把数据降维为 k 维,那么我们只需要选取前 k 个向量即可,即 $u^{(1)}, u^{(2)}, ... , u^{(k)}$。

步骤三:数据降维

接着,我们计算降维后的值 z,假设降维前的值为 $x^{(i)}$,降维后为 $z^{(i)}$,那么:

$$
z^{(i)} = U_{reduce}^T x^{(i)}
$$

其中,$U_{reduce} = [u^{(1)} u^{(2)} ... u^{(k)}]$。看一下数据维度,$U_{reduce}$ 是 n x k 矩阵,$x^{(i)}$ 是 n x 1 矩阵,$z^{(i)}$ 是 k x 1 矩阵。

实现时可以用向量化来提高性能。假设 X 是 m x n 矩阵,m 表示训练样例个数,n 表示特征数。用大写的 Z 表示降维后的数据,是一个 m x k 的矩阵。$U_{reduce}$ 是 n x k 的主成份特征矩阵,每列表示一个主成份特征。那么他们满足下面的关系:

$$
Z = X * U_{reduce}
$$

要从数学上证明这样计算出来的 $z^{(i)}$ 就是 $x^{(i)}$ 在 $U_{reduce}$ 线性空间投射,使得其投射误差最小,将是一个非常复杂的过程。所幸如果我们单纯从应用 PCA 算法来对数据进行降维的角度来看的话,借用 Octave/Matlab 等现成函数,计算过程相对比较简单。

PCA 的应用

数据还原

我们怎么样从压缩过的数据里还原出压缩前的数据呢?从前文的计算公式,我们知道降维后的数据计算公式 $z^{(i)} = U_{reduce}^T x^{(i)}$。所以,如果要还原数据,我们可以使用下面的公式:

$$
x_{approx}^{(i)} = U_{reduce} z^{(i)}
$$

其中,$U_{reduce}$ 是 n x k 维矩阵,$z^{(i)}$ 是 k x 1 列向量。这样算出来的 $x^{(i)}$ 就是 n x 1 列向量。

向量化运算公式为:

$$
X_{approx} = Z * U_{reduce}^T
$$

其中 $X_{approx}$ 是还原回来的数据,是个 m x n 矩阵,每行表示一个训练样例。Z 是个 m x k 矩阵,是压缩后的数据。$U_{reduce}$ 是 n x k 的主成份特征矩阵,每列表示一个主成份特征。

PCA 算法中 K 参数的选择

怎么样选择参数 K 呢?K 是主成份分析法中主成份的个数。可以用下面的公式来判断选择的 K 是否合适:

$$
\frac{ \frac{1}{m} \sum_{i-1}^m | x^{(i)} - x_{approx}^{(i)} |^2 }{ \frac{1}{m} \sum_{i=1}^m | x^{(i)} | } \le 0.01
$$

其中分子部分表示平均投射误差的平方;分母部分表示所有训练样例到原点的距离的平均值。这里的物理意义用术语可以描述为 99% 的数据真实性被保留下来了 (99% of variance is retianed)。简单地理解为压缩后的数据还原出原数据的的准确度为 99%。另外常用的比率还有 0.05 ,这个时候准确度就是 95%。在实际应用中,可以根据要解决的问题的场景来决定这个比率。

假设我们的还原率要求是 99%,那么用下面的算法来选择参数 K:

  1. 让 K = 1
  2. 运行 PCA 算法,计算出 $U_{reduce}, z^{(1)}, z^{(2)}, ... , z^{(m)}, x_{approx}^{(1)}, x_{approx}^{(2)}, ... , x_{approx}^{(m)}$
  3. 利用 $\frac{ \frac{1}{m} \sum_{i-1}^m | x^{(i)} - x_{approx}^{(i)} |^2 }{ \frac{1}{m} \sum_{i=1}^m | x^{(i)} | }$ 计算投射误差率,并判断是否满足要求,如果不满足要求,K = K + 1,继续步骤 2;如果满足要求,K 即是我们选择的参数

这个算法容易理解,但实际上效率非常低下,因为每做一次循环都需要运行一遍 PCA 算法。另外一个更高效的方法是利用 svd 函数返回的 S 矩阵:$[U, S, V] = svd(Sigma)$。其中 S 是个 n x n 对角矩阵,即只有对角线上的值非零其他元素均为零。

从数学上可以证明(从应用角度,可以忽略这个证明过程),投射误差率也可以使用下面的公式计算:

$$
1 - \frac{\sum_{i=1}^k S_{ii}}{\sum_{i=1}^n S_{ii}}
$$

这样运算效率大大提高,我们只需要调用一次 svd 函数即可。

加快监督机器学习算法的运算速度

PCA 的一个典型应用是用来加快监督学习 (Supervised Learning) 的速度

比如,我们有 m 个训练数据 $(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), ... , (x^{(m)}, y^{(m)})$,其中 $x^{(1)}$ 是 10,000 维的数据,想像一下,如果这是个图片分类问题,如果输入的图片是 100 x 100 分辨率的。那么我们就有 10,000 维的输入数据。

使用 PCA 来加快算法运算速度时,我们把输入数据分解出来 $x^{(1)}, x^{(2)}, ... , x^{(m)}$,然后运用 PCA 算法对输入数据进行降维压缩,得到降维后的数据 $z^{(1)}, z^{(2)}, ... , z^{(m)}$,最后得到新的训练样例 $(z^{(1)}, y^{(1)}), (z^{(2)}, y^{(2)}), ... , (z^{(m)}, y^{(m)})$。利用新的训练样例训练出关于压缩后的变量 $z$ 的预测函数 $h_\theta(z)$。

需要注意,PCA 算法只用来处理训练样例,运行 PCA 算法得到的转换参数 $U_{reduce}$ 可以用来对交叉验证数据集 $x_{cv}^{(i)}$ 以及测试数据集 $x_{test}^{(i)}$ 进行转换。当然,还需要相应地对数据进行归一化处理或对数据进行缩放。

PCA 误用

PCA 的典型应用场景是对数据进行压缩,减少磁盘/内存占用,加快算法运行速度。另外一个是用来数据可视化 (降到 2 维或 3 维)。我们了解到 PCA 可以对数据进行降维,即减少特征数,有人用 PCA 来解决过拟合问题。这可能在某些情况下会起作用,但实际上 PCA 不是一个好的解决过拟合的方法。解决过拟合应该使用正则化,加大成本函数里正则项的比重。

PCA 滥用

另外一个场景是在设计机器学习算法时,一开始就引入 PCA 来对数据进行压缩降维。实际上这不是好的方法。我们应该尽量使用原始数据来进行机器学习运算,当出现问题时,比如内存占用太大,运算时间太长等问题时,我们才考虑用 PCA 来优化。PCA 是算法优化的一个步骤,而不是机器学习系统里的必须步骤。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容