《A semi-supervised convolutional neural network for hyperspectral image classification》

摘要- CNN在有足够的标签数据的前提下能够表现出强大的学习能力，但是对于HSI来说，标签数据非常有限。本文的主要工作提出了一种半监督的CNN架构，而且在编码－解码中间添加了跳跃连接使得网络能够更好的实现半监督学习。同时在训练的时候将监督和半监督的损失函数一同训练。半监督学习是一种解决标签数据不足的一种方法。

1. Introduction

HSI分类问题实际上就是一种语义分割问题，为图像中的每个像素分配一个不同的标签。HSI图像包含了数百个光谱带，提供了大量的有价值的光谱－空间信息，但是其复杂的结构和标签样本不足使得特征的提取面临着挑战。

在早期，像最近邻、决策树、线性函数等应用于HSI分类任务中，但是这些方法对Hughes 现象过于敏感，之后提出用核方法SVM去解决Hughes现象，并且在相当长的时间内，这都是一种主流方法。同时extreme learning machine、active learning、sparse representation也取得一些不错的效果。

直到深度学习的出现，SAE在2014年被Chen等人^[1]应用于HSI分类任务中取得不错效果。CNN在2015年被Hu等人^[2]应用于HSI分类任务中，用来提取光谱特征。在之后CNN被用来提取光谱-空间特征取得非常大的进步。但是这些深度方法需要大量的参数需要训练，如果训练数据不足，很容易引发过拟合现象。在这种背景下，针对有限标记样本的问题，Chen等人^[3]提出了一种虚拟样本增强方法。Li等人^[4]提出了一种像素对方法，显著增加训练样本数量，保证了CNN的优势。许多半监督算法已经证明：使用无标记数据有助于提高分类性能。然而，目前基于深度学习的高光谱图像分类方法不能很好地利用大量的未标记数据。

本篇论文的主要目标就是：处理复杂的数据结构；HSI的有限标签样本。
本片论文的主要贡献：

CNN网络架构直接从原始的高维的HSI数据中提取光谱-空间特征
CNN中引入Ladder network(梯形网络)使得网络更加适合半监督学习
为了解决标签数据过少的情况，半监督CNN同时最小化半监督和监督代价函数

2. 半监督CNN

2.1 符号约定

图1所示的半监督CNN由clean encoder，corrupted encoder和decoder组成。为了使模型学习去噪，在corrupted encoder的每一层都加入高斯噪声。解码器的目标是通过最小化与clean encoder的差异来估计corrupted encoder去噪版本。clean encoder和corrupted encoder共享权重。此外，将分批归一化(BN)应用于包括网络最顶层在内的每个激活函数之前，以加快收敛速度，提高分类精度。

图1：Architecture of the semi-supervised CNN

在图1中，x表示原始输入的高光谱信号。 $\tilde{x}$ 是x的corrupted version。 $\hat{x}$ 是x的重建信号。 $z^{(l)}$ 是clean层 $l$ 的变量值。 $\tilde{z}^{(l)}$ 是corrupted层 $l$ 的变量值l。 $\hat{z}^{(l)}$ 是解码器层 $l$ 的变量值。 $\tilde{y}$ 是corrupted 编码器层的输出标签。 $y$ 是clean编码器的输出标签。 $conv(\cdot )$ 卷积层的卷积函数。 $pooling(\cdot)$ 是池化层的池化函数。 $f(\cdot)$ 是完全连接层的卷积函数。 $C_d^{(l)}$ 是每一层的无监督成本。和 $g^{(l)}(x)$ 是解码器层 $l$ 的去噪函数。

2.2 编码器的卷积、池化和全连接层

clean编码器中的每一层都表示为 (1):
$z^{(l)}=N_B(W^{(l)}h^{(l-1)}) where : l= 1, 2, 3, 4$
$h^{(l)}=\phi (\gamma^{(l)}+\beta^{(l)}) where : l=1, 2, 3$
在等式(1)中：

$h^{(0)}=x$
$y=z^{(4)}$
$N_B(x_i)=(x_i-\hat{\mu}_{x_i})/\hat{\sigma}_{x_i}$ 是分量批量标准化(BN)
$x_i$ 是 $W^{(l)}h^{(l-1)}$ 的组成部分。
$\hat{\mu}_{x_{i}}$ 、 $\hat{\sigma}_{x_{i}}$ 分别是minibatch的平均误差和标准差。
$W^{(l)}$ 是层 $l$ 和层 $l-1$ 之间的权重矩阵
$\gamma^{(l)}$ 和 $\beta^{(l)}$ 是可训练的参数
$\phi^{(x)}$ 是输出层的softmax激活函数， $\phi^{(x)}$ 是其他层的ReLU激活函数。

我们选择一个像素的 $K \times K \times B$ 邻域作为网络的输入，其中 $B$ 是高光谱图像频带的个数。 $W^{(1)}$ 是步幅为1、大小为 $3 \times 3 \times B_1$ 卷积层的卷积核。 $W^{(2)}$ 是步幅为2、大小为 $3 \times 3 \times B_1$ 池化层的窗口大小。 $B_1$ 是卷积和池化层的输出频带数。池化过程是通过与 $W^{(2)}$ 卷积来实现的，以减少中间表示的维数。在池化成层之后，将特征向量展平与全连接层相连接。

corrupted encoder编码器的表达式与所述clean encoder编码器类似。corrupted encoder编码器的公式表达：
$\tilde{z}_{p r e}^{(l)}=W^{(l)} \tilde{h}^{(l-1)} \text { where } : l=1,2,3,4$
$\tilde{z}^{(l)}=N_{B}\left(\tilde{Z}_{p r e}^{(l)}\right)+n^{(l)} \text { where } : l=1,2,3$
$\tilde{h}^{(l)}=\phi\left(\gamma^{(l)}\left(\tilde{z}^{(l)}+\beta^{(l)}\right)\right) \text { where } : l=1,2,3$
其中：

$\tilde{h}^{(0)}=\tilde{x}=x+n^{(0)}, n^{(l)} \sim N\left(0, \sigma^{2}\right) \quad(l=0,1,2,3)$ 高斯噪声
$\tilde{y} =N_{B}\left(\widetilde{Z}_{p r e}^{(4)}\right)$
其他参数和clean encoder编码器相同。我们需要计算 $\widetilde{Z}_{p r e}^{(l)}$ 以计算无监督成本。

2.3 阶梯网络和解码器

2.4 半监督学习

高光谱图像中标记样本非常有限，监督学习与非监督学习的矛盾使得两者不能很好地融合。通常情况下，未标记的样本仅用于传统深度学习方法的预训练。通过梯形网络，解码器可以通过编码器与解码器之间的跳过连接，恢复编码器丢弃的任何细节，从而减轻了模型高层中表示细节的压力。梯形网络使得无监督学习适合于有监督学习。因此，采用半监督学习策略对参数进行训练，以充分利用大量未标记样本。

·····ing

Chen, Y., Z. Lin, X. Zhao, G. Wang, and G. Yanfeng. 2014. “Deep Learning-Based Classification of Hyperspectral Data.” IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 7 (6): 2094–2097. doi:10.1109/JSTARS.2014.2329330. ↩
Hu, W., Y. Huang, L. Wei, F. Zhang, and H. Li. 2015. “Deep Convolutional Neural Networks for Hyperspectral Image Classification.” Journal of Sensors 2015: 1–12. doi:10.1155/2015/258619. ↩
Chen, Y., H. Jiang, L. Chunyang, X. Jia, and P. Ghamisi. 2016. “Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Networks.” IEEE Transactions on Geoscience and Remote Sensing 54 (10): 6232–6251. doi:10.1109/TGRS.2016.2584107. ↩
Li, W., W. Guodong, F. Zhang, and D. Qian. 2016. “Hyperspectral Image Classification Using Deep Pixel- Pair Features.” IEEE Transactions on Geoscience and Remote Sensing. doi:10.1109/TGRS.2016.2603190. ↩