一、深度自编码器
- 自编码器
自编码器(Auto-encoder)是一种无监督学习的方法,可以用来进行数据的降维。对于我们的输入数据,可以将其通过一个Encoder来获得一个低维的code,然后将这个code通过一个Decoder来重建原来的数据,而Encoder和Decoder是一起训练。下图以手写数字数据集为例展示了这个过程:
- 类比PCA
在PCA中,我们将数据乘以一个矩阵然后得到低维的表示,而我们将记作,通过极小化与之间的距离,可以求解PCA。PCA通过对方差矩阵进行特征值分解可以求得解析解,但是这个问题可以使用深度学习的思路来解,可以将PCA理解为下图中的深度网络,中间的隐层输出就是自编码器学习到的低维向量表示(也就是code),这一层也叫做瓶颈层(Bottleneck Layer),训练的方式就是利用梯度下降来极小化与之间的距离:
- 深度自编码器
如下图,自编码器也可以是深度的:
在PCA类比的自编码器中Encoder和Decoder的权重互为转置,在深度自编码器中也可以使和,和等共享参数,这样可以减少参数量,避免过拟合,但是这种做法是没有必要的,按照前馈网络的方式搭建一个深度自编码器,然后使用反向传播训练这个网络即可。
- 效果
下图展示了使用深度自编码器和PCA在MNIST数据集上进行降维然后重构的效果,可以看到深度自编码器能够保留更多的信息:
下图是使用PCA和深度自编码器降到维以后然后再可视化的结果,使用PCA后数据还是混合在一起,而使用深度自编码器以后数据就被明显地区分开:
二、自编码器的变种
- 去噪自编码器
去噪自编码器的做法是首先在样本上添加一些噪声,然后将加噪的样本输入到自编码器中,输出的重构样本要尽量与原来未加噪的样本越接近越好:
这样的做法可以使学习到的低维表示具备更高的鲁棒性,这是因为模型在学习重构样本的同时也学习到了如何去除样本中的噪声。
- 卷积神经网络的自编码器
- 架构
卷积神经网络的自编码器也类似深度自编码器,对它的Encoder来说,是将样本(比如图片)进行卷积再进行池化的多层卷积神经网络,然后得到所谓的code,而类比深度自编码器,它的Decoder就要实现“Unpooling”和“Deconvolution”,最后要使模型输出与输入越接近越好,该模型的架构如下:
- Unpooling
Unpooling需要还原feature map。如下图所示,以Max Pooling为例,为了做Unpooling,我们需要在Pooling时将每个区域内的最大值的位置记录下来,然后在Unpooling时将Unpooling还原的feature map对应的位置填入原来的最大值,然后其余位置设为0:
使用这种方法还原的feature map与原来的对比如下:
还有一种比较简单的方式就是不记录最大值的位置,只需要在Unpooling还原feature map时将最大值拷贝到原来对应区域的每一个位置即可。
- Deconvolution
事实上Deconvolution就是Convolution,下面用图来解释这件事情。如下图,以一维数据的卷积为例,对于卷积来说,卷积的feature map中的每一个元素都来自三个权重乘上原来的feature map中的三个元素的累加和:
而在Deconvolution时,需要将当前feature map中的一个元素乘上三个不同的权重然后得到新的feature map中的三个元素,而新的feature map中的一个元素由原来的feature map中的三个不同的元素贡献加和得到(缺失的边缘要做Padding补0),因此这在本质上和Convolution是一样的,共同点都是新的feature map中的每个元素都是由原来feature map中的三个不同的元素乘以各自的权重加和得到:
三、应用
- 文本检索
对于用于文本检索(Text Retrieval)的向量空间模型(Vector Space Model),将文本映射到向量的方法有多种选择。在进行检索时将查询语句也按照同样的方式映射成向量,然后选择与该向量相似度(计算相似度的方法可以选择内积或者余弦相似度等)最高的向量对应的文档进行召回:
对于将文档映射成向量的方法,一个简单的方法是bag-of-word,这种方法使用一个高维向量代表一篇文档,向量的每一维度代表一个词,其值可以是该词的tf-idf,但是这种方法显然是有局限性的,其丢失了太多信息,且不能代表词的语义信息:
我们可以选择使用深度自编码器来构建文档的向量表示,其输入为bag-of-word高维向量,中间层是一个2维向量,其架构如下:
按照这样的方法得到的结果如下:
可以看到同一话题的向量被聚合到了一起,将与query对应的向量相似度较高的部分文档召回即可。
另一种方法是使用之前提到过的LSA来找到每一篇文档背后的隐向量,下图展示了文档隐向量的分布情况,显然不同类型的文档隐向量都糅合到了一起,效果不太好:
- 相似图片搜索
类似文本检索,当输入一张查询图片时,我们希望能搜索到数据库中跟这张图片相似的图片,可以使用深度自编码器来对图片进行降维,比如使用下图所示网络的架构:
下图展示了原有图片与重构图片的对比:
一个简单的想法是通过计算查询图片与数据库中图片像素的欧氏距离来进行召回,下图对这种方法与深度自编码器的方法进行了对比,下图都是对第一张人脸图片进行召回:
- 深度网络预训练
在使用神经网络时如果能找到一组比较好的初始化参数,能够使神经网络发挥更好的效果,而自编码器就可以用于神经网络的预训练。比如下图的神经网络,我们可以尝试使用自编码器对每一层参数进行预训练,从而期望找到一组好的初始化参数:
具体的利用自编码器进行预训练的流程如下,也就是逐次为每一层参数构建一个自编码器,然后保留并固定当前层的Encoder,最终对最后一层的参数进行随机初始化,然后微调网络的参数就能训练一个效果不错的神经网络模型:
值得注意的是,在构建中间层比输入输出层维度更高的自编码器时,需要为中间层添加一个很强的正则项,比如L1正则等。感性地来考虑,这是因为由于中间层维度较高自编码器完全可以直接将输入层数据拷贝到中间层,然后再拷贝到输出层,这样可能会导致神经网络什么也没有学到。
由于目前训练神经网络的技术已经比较成熟,事实上没有必要对神经网络做如此繁琐的预训练过程,但是这种预训练的方式并非没有用武之地。举例来说,可以将这种预训练技术应用在无标签数据很多,有标签数据很少的情况下,可以先在大量的无标签数据上进行预训练,然后再使用有标签的数据进行微调即可有效地利用所有数据来取得较好的效果。
- 使用自编码器进行生成
下面的实验尝试使用自编码器的Decoder来进行生成,也就是尝试输入一些随机的向量,来尝试让Decoder生成一些有意义的样本(比如图片)。这里使用MNIST数据集进行实验,首先将图片的784维的向量通过Encoder降维到2维然后进行可视化,从如图所示的方框区域等间隔地取样多个随机样本,然后通过Decoder生成了如图所示的图片,可以看到生成的图片之间有一定的渐变规律:
通过这种方式我们不能保证随机输入一些向量都能得到类似数字的图片,我们可以考虑通过为自编码器的code添加L2正则来使其分布在0附近,如此我们就可以通过在0附近随机取样来生成一些数字图片了: