[译] Every Filter Extracts A Specific Texture In Convolutional Neural Networks

题目：卷积神经网络中的每一个过滤器提取一个特定的特征

文章地址：《Every Filter Extracts A Specific Texture In Convolutional Neural Networks》 arXiv.1608.04170
Github链接：https://github.com/xzqjack/FeatureMapInversion

(转载请注明出处：http://www.jianshu.com/p/20b854ffab02 ，谢谢！)

Abstract

摘要： 许多作品都集中在通过产生图像（激活一些特定神经元）来可视化并理解卷积神经网络（CNN）的内在机制，这称为深度可视化。然而，目前依旧尚不能直观的了解到过滤器从图像中提取了些什么。在本文中，我们提出了一种改进的代码的反演算法，称为特征映射反演，以助了解CNN的过滤功能。我们发现，每一个过滤器提取一个特定的纹理。从更高的层提取出的纹理包含更多的颜色和更复杂的结构。我们还表明，图像的风格可以是这些纹理基元的组合。两个方法被提出用于重新随机且有意图的分配特征映射。然后，我们逆转了修改后的代码，并生成不同风格的图像。有了这些结果，我们提供了一个解释：为什么特征图谱组成的梯度矩阵（Gram Matrix）可以代表图像风格。

关键词： 特征图谱， 有趣的滤镜，代码反转，原始纹理，风格化

一.简介

卷积神经网络在许多模式识别任务上达成了惊人的成就，特别是大规模的图片识别问题[2,3,4,5]，然而，在一方面，CNN依旧很容易犯错。[6]表明，给图片添加人类无法识别的对抗噪声能导致CNN对图像的判定产生重大失误。[7]展示了一些相关的结果：我们很容易能通过进化算法来生成一些人类无法分辨的图片，但一些先进的CNN可以分辨图片到特定的类别（99.99%的置信度），另一方面，现在仍不是很清楚CNN到底是怎样从训练集中学习适合的特征，以及一个特征图谱到底代表着什么[8,9]。这种对CNN机制的不清晰敦促着最新的研究，将CNN可视化的研究，也称为深度可视化[10,11,12,13,14,15,16]。深度可视化目标是通过激活特定神经元来生成一个图片，解释CNN的内部机制，这可以给研究者们提供有意义、有帮助的见解，促进大家设计出更有效的网络结构。

这里有一些能用来理解CNN的深度可视化的技巧。也许最简单的方法就是展示一个确定层的响应，或者一些确定的特征映射。然而这些特征图谱仅提供了有限和直观的信息（针对滤镜和映射），例如，虽然他是可能找到一些针对特定对象响应的过滤器。比如[19]中的，这种方法是启发式的，而不是通用的。

一个主要的深度可视化技术是激活最大化[10]，它找出一个图像，激活一些特定神经元，最深度的解释这些神经元对应的特征响应。[20]展示了通过alexnet在最后一层做激活最大化学习到的对象概念。[21]生成了相似的结果，通过把激活最大化应用在单个特征图谱上，[22]生成了一些有吸引力的图片，通过加强输入图像的在高层次的激活神经元，和低层次一样。这称为“深度的梦”。然而生成的图像是粗糙的，所以一系列子工作也集中在提升生成图片的质量（通过增加天然的先验例如L2正则化[20]，全局方差范数[13]）偏差[22]，高斯模糊[21]，数据驱动的补丁[13] ，除此之外，还有[24]也揭示了输入图片用不同的神经元学习出不同类型的特征。

另一个主要的深度可视化技术叫做编码反转[23]，它产生的图像的激活代码和目标激活码在细节层非常相似。它揭示了哪些特征是从输入图像中用滤镜提取出来的。代码反转可以通过训练另一个神经网络，直接预测重建图片[25]，或通过迭代优化一个初始噪声图像[26]，或者把CNN的项目特征激活回输入像素的空间（用反卷积[18]）这些反演方法也可以扩展到代码的统计属性。[27]设想了特征映射矩阵Gram matrix并发现它代表了图像的纹理。[1,28,29]利用gram matrix去做了图像风格化的工作。和激活最大化相比，代码反转更直观的揭示了从给定图像中用过滤器提取的确定的特征。

深度可视化方面，许多以前的工作揭示了一些有价值的揭示（对于不同层中的单个神经元[20,7]，一个特征映射[21]，或者代码[22]），卷积神经网络不再是一个完完全全的黑盒子。然而，我们最好的知识，仍然无法做到可视化每一个过滤器到底抓住了图像中的哪些因素。深入了解过滤器可以帮助改进现有神经网络的结构。

在这篇文章中我们提出了“特征映射反演”FMI，来解决前文提到的那些问题。对于一个有趣的滤波器，FMI同时增强了相关的特征映射，并削弱了其他的特征映射。然后将经典的代码反演算法应用于修改后的代码，并生成反演图像。我们的实验结果表明，在CNN每个滤波器提取特定的纹理。更高层次的纹理包含更多的颜色和更复杂的结构（图3）。另外，我们发现一个图像的风格是多层纹理基元的组合，两个方法被提出反转代码用来生成不同风格的图片，主要来说，我们改变代码，重新随机分配各特征映射的和，根据目标代码的目的来做。有了这些结果，我们提出了一个解释：为什么特征映射梯度矩阵能够代表图像的风格。因为每一个滤镜都提取出一个特定搞得纹理，各个特征映射相结合时的权重决定了图像的风格。就像特征映射沿通道轴的特征映射的综合，梯度矩阵也领导着各个特征映射在生成图片上的能力。

我们的实验建立在开源的深度学习框架mxnet[30]，可以在https://github.com/xzqjack/FeatureMapInversion上看。

二. 方法

2.1.特征映射反演

在这一节中，我们用FMI来回答这个问题：“CNN中一个滤镜到底从输入图像中获取了什么”，这里给出一个输入图片X（shape = 3 x H x W），一个训练过的CNN：φ 把输入图像编码成φ(x)（C x M x N）编码反转方法旨在找到一个新的图像X*，编码 **φ(X*) **和 φ(X) 要非常相似。就像图1中所示的，如果选择一个层（如VGG-19里的relu5_1）编码是一个3维Tensor。共有512个特征映射，每个映射的尺寸都是14 x 14，为了可视化的观察到第 l 个过滤器提取出了什么东西，我们应该加大第 l 层的特征映射到一定程度，并削弱其他的。在这篇论文中，我们把第L个特征映射设置成了沿通道轴线特征映射的和，其他的都设置成了0。最后，我们将采用经典的编码反转[23]应用给修改过的编码 ψ(φ(X),l)

这儿φ(X)_k,m,n表示第k个特征映射在位置(m,n)处激活。ψ(φ(X),l)增强了φ(X)的第 l 个特征映射，削弱了其他的。

2.2 修改编码反转

我们知道每一个过滤器能提取一个特定纹理，我们假设一个图片的风格可以被认为是多种纹理基元的结合。如果是这样，我们可以结合纹理基元，通过随机且有意图的修改特征映射的分布。那么如果我们把反转编码应用到修改过的编码中，我们会得到不同种的风格图。

随机修改的方法保证了神经元激活的状态（激活或者非激活）不变，但重新分配了每个特征映射的综合。我们最先生成了一个随机向量v

然后我们重新分配了每个特征映射向量v的权重。修改后的编码为：

我们把修改后的编码当成目标，保证图片的内容不变但是风格多样化的生成一张图片，如图4：

进一步，我们修改每个特征映射的比例，使得每个特征映射的和与目标代码相似。主要来说，假设我们有两个输入图片，内容图Xc（3 x Hc x Wc）风格图Xs（3 x Hs x Ws）。Xc 和 Xs 在某一层的特征映射被重构结构φ(Xc)=(C x Mc x Nc )和 φ(Xs)=(C x Ms x Ns )。我们用内容编码φ(Xc)作为内容约束，特征映射在通道轴上求和φ(Xs)作为风格约束。最后，我们产生一张风格图，通过下式：

内容和风格有着不同的权重

三.实验

3.1实验设置

我们把我们的实验建立在一个很有名的CNN网络上，名叫VGG19，这个网络被训练用来识别1000多种分类的物体，用于1.2亿图像ILSVRC 2014 Imagenet数据集。它包含了16个卷积层，16个relu层，5个池化层，总共5504个滤镜。所有的过滤器都是3x3的。我们不用任何的全连接层。在实验的过程中，我们把α设成10 β设成1，利用金门大桥和某大学作为内容图，在所有情况下结果如图2

3.2 特征映射反转

我们在图三中展示了有质量的FMI结果，最上的反演结果来自输入图像金门大桥，下面的反演来自于某大学，从上到下每行显示了特征映射反演（分别来自于5个不同的卷几层，relu1_2,relu2_2,relu3_2,relu4_2,relu5_2）在每行中，从左到右的列展示了第1~5个特征的反演结果。

数值结果表明，每一个过滤器提取一个特定的纹理。像图3所示的，不同的特征映射在不同的层的反演结果有不同的纹理，而相应的反演结果（a）和（b）有相同的纹理，包括颜色和基本结构。低层次的FMI比如relu1_2和relu2_2，生成图像的色彩比较单调，局部结构简单。随着层数的增加如relu4，relu5，色彩变得丰富，局部结构变得更加复杂。这个现象是合理的，因为更高层的特征映射可以被视为前面特征映射的非线性组合。例如，在低层的特征映射代表低层的语义属性，如边缘和角，然后高层的过滤器组装不同的边缘模式和角模式，组成更复杂的纹理。

3.3生成多种风格的图片

由于每个特征图谱代表一个特定的纹理，我们可以改变图像的风格，通过随机修改层次纹理的组合权重。图4显示了定性随机修改的编码反演结果。我们随机分配每个特征映射的总和（在relu1_1，relu2 1，relu3_1，relu4_1和relu5_1。对于每一层，我们产生两个随机反演结果。随机变化改变了激活神经元的激活程度，但未激活的保持了不变。同一列的两个生成的图像有不同的纹理。与输入图像相比，颜色在低层relu1_2， relu2_2有主要区别，结构是在1层relu4_1，relu5_1有主要区别，这支撑了我们的发现。

我们发现这很有趣，在高层次的反演结果中，包含更少的内容细节和更多的纹理。原因是，纹理重复块在高层次中包含了更多的复杂结构。然后内容图像是由许多独特的子结构组成，当子图像的结构与纹理不同时，部分内容信息被毁坏。最后整图的内容信息变得稀缺，许多复杂纹理出现。

此外，我们还实验了有目的地修改编码转化（PMCI）。图5中所生成的图像结合目标内容图像的编码和按一定分布的目标样式图的特征映射。特别是，我们选择4个风格的图像做实验：A Self Portrait with Necklace of Thorns, Femme nue assise, The Starry Night and Der Schrei.

我们用relu2_2层的编码当作内容项约束，沿通道轴线relu1_1，和relu2_1，relu3_1，relu4_1，relu5_1作为风格的约束条件。第一列显示目标样式图像。第3,4列显示PMCI结果。我们还展示了Gatys等人风格化的图像[1]在第2和4列。
　　
　　PMCI生成和风格目标相似的图像。我们可以直观的发现生成的图像在同一行上的风格很相似。这种相似性表明，特征映射的组合权重表示图像风格。因此，我们可以根据特征映射的能量分布，确定两个图像是不是相同的风格，有了这些结果，我们提供了一些见解，以理解为什么特征映射的梯度矩阵[1]可以代表图像风格。像沿通道轴的特征映射的总和，梯度矩阵也引导所生成的图像中每一个特征映射的占比。

四. 结论

我们提出了一个方法来可视化一个过滤器抓住了输入图像的哪个特征，通过反转感兴趣的特征映射。通过这个技术，我们证明了每一个过滤器提取一个特定的纹理。在更高层次上的反演结果包含更多的颜色和更复杂的结构。我们提出了两种方法来生成不同风格的图像。实验结果支持了我们的假设：一个图像的风格本质上是从CNN中获取的纹理基元的一种组合。除了产生不同风格的图像，我们还提供了一个解释：为什么特征映射组成的梯度矩阵[1]可以当作一个图像的风格表示。由于每一个过滤器提取一个特定的纹理，特征映射组合时的权重决定的图像的风格。像沿通道轴的特征映射的总和，梯度矩阵也引导着生成图像的每一个特征映射的分布。

References

[1] L.A. Gatys, A.S. Ecker, and M. Bethge, “Image style transfer using convolutional neural networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016.

[2] C. Szegedy, W. Liu, Y.Q. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 1–9.

[3] A. Krizhevsky, I. Sutskever, and G.E. Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in Neural Information Processing Systems (NIPS), 2012, pp. 1097–1105.

[4] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” CoRR, vol. abs/1409.1556, 2014.

[5] K.M. He, X.Y. Zhang, S.Q. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016.

[6] I.J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and harnessing adversarial examples,” International Conference on Learning Representations (ICLR), 2015.

[7] A. Nguyen, J. Yosinski, and J. Clune, “Deep neural networks are easily fooled: High confidence predictions for unrecognizable images,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015, pp.427–436.

[8] J. Yosinski, C. Jeff, Y. Bengio, and H. Lipson, “How transferable are features in deep neural networks?,” in Advances in Neural Information Processing Systems (NIPS), 2014, pp. 3320–3328.

[9] Y.X. Li, J. Yosinski, J. Clune, H. Lipson, and J. Hopcroft, “Convergent learning: Do different neural networks learn the same representations?,” in Advances in Neural Information Processing Systems (NIPS), 2015, pp. 196–212.

[10] Dumitru Erhan, Yoshua Bengio, Aaron Courville, and Pascal Vincent, “Visualizing higher-layer features of a deep network,” University of Montreal, vol. 1341, 2009.

[11] C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, and R. Fergus, “Intriguing properties of neural networks,” International Conference on Learning Representations (ICLR), 2014.

[12] J.T. Springenberg, A. Dosovitskiy, T. Brox, and M. Riedmiller, “Striving for simplicity: The all convolutional net,” International Conference on Learning Representations (ICLR), 2015.

[13] D.L. Wei, B.L. Zhou, A. Torrabla, and W. Freeman, “Understanding intra-class knowledge inside cnn,” arXiv preprint arXiv:1507.02379, 2015.

[14] K. Lenc and A. Vedaldi, “Understanding image representations by measuring their equivariance and equivalence,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 991–999.

[15] A. Karpathy, J. Johnson, and F.F. Li, “Visualizing and understanding recurrent networks,” International Conference on Learning Representations (ICLR), 2016.

[16] M. Liu, J.X. Shi, Z. Li, C.X. Li, J. Zhu, and S.X. Liu, “Towards better analysis of deep convolutional neural networks,” arXiv preprint arXiv:1604.07043, 2016.

[17] W.L. Shang, K. Sohn, D. Almeida, and H. Lee, “Understanding and improving convolutional neural networks via concatenated rectified linear units,” International Conference on Machine Learning (ICML), 2016.

[18] M.D. Zeiler and R. Fergus, “Visualizing and understanding convolutional networks,” in European Conference on Computer Vision (ECCV). Springer, 2014, pp. 818–833.

[19] Y. Sun, X.GWang, and X.O. Tang, “Deeply learned face representations are sparse, selective, and robust,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 2892–2900.

[20] K. Simonyan, A. Vedaldi, and A. Zisserman, “Deep inside convolutional networks: Visualising image classification models and saliency maps,” in International Conference on Learning Representations (ICLR), 2014.

[21] Y. Jason, C. Jeff, N. Anh, F. Thomas, and L. Hod, “Understanding neural networks through deep visualization,” in Deep Learning Workshop, International Conference on Machine Learning (ICML), 2015.

[22] A. Mordvintsev, C. Olah, and M. Tyka, “Inceptionism: Going deeper into neural networks,” Google Research Blog. Retrieved June, vol. 20, 2015.

[23] A. Mahendran and A. Vedaldi, “Visualizing deep convolutional neural networks using natural pre-images,” International Journal of Computer Vision (IJCV), pp. 1–23, 2016.

[24] A. Nguyen, J. Yosinski, and J. Clune, “Multifaceted feature visualization: Uncovering the different types of features learned by each neuron in deep neural networks,” Visualization for Deep Learning workshop, International Conference in Machine Learning(ICML), 2016.

[25] A. Dosovitskiy and T. Brox, “Inverting convolutional networks with convolutional networks,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

[26] A. Mahendran and A. Vedaldi, “Understanding deep image representations by inverting them,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015, pp. 5188–5196.

[27] L. Gatys, A.S. Ecker, and M. Bethge, “Texture synthesis using convolutional neural networks,” in Advances in Neural Information Processing Systems (NIPS), C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett, Eds., pp. 262–270.Curran Associates and Inc., 2015.

[28] D. Ulyanov, V. Lebedev, A. Vedaldi, V. Lempitsky, A. Gupta, A. Vedaldi, A. Zisserman, H. Bilen, B. Fernando, and E. Gavves, “Texture networks: Feed-forward synthesis of textures and stylized images,” in International Conference on MachineLearning, (ICML), 2016.

[29] J. Johnson, A. Alahi, and F.F. Li, “Perceptual losses for realtime style transfer and super-resolution,” European Conference on Computer Vision (ECCV), 2016.

[30] T.Q. Chen, M. Li, Y.T Li, M. Lin, N.Y. Wang, M.J. Wang, T.J. Xiao, B. Xu, C.Y. Zhang, and Z.Zhang, “Mxnet: A flexible and efficient machine learning library for heterogeneous distributed systems,” Advances in Neural Information Processing Systems (NIPS), 2015.

[31] R. Olga, D. Jia, S. Hao, K. Jonathan, S. Sanjeev, M. Sean, Z.H. Huang, K. Andrej, K. Aditya, B. Michael, C.B. Alexander, and F.F. Li, “Imagenet large scale visual recognition challenge,” International Journal of Computer Vision (IJCV), vol. 115, no.3, pp. 211–252, 2015.

(注：感谢您的阅读，希望本文对您有所帮助。如果觉得不错欢迎分享转载，但请先点击这里获取授权。本文由版权印提供保护，禁止任何形式的未授权违规转载，谢谢！)

最后编辑于：2017.12.05 06:34:26

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,482评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,377评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,762评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,273评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,289评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,046评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,351评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,988评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,476评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,948评论 2赞 324
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,064评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,712评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,261评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,264评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,486评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,511评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,802评论 2赞 345