Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification让世界充满颜色：端到端图片自动着色协同算法

1.论文概要

论文题目：Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification
论文作者：Satoshi Iizuka, Edgar Simo-Serra, and Hiroshi Ishikawa
原文连接：http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/data/colorization_sig2016.pdf

2.论文内容

image.png

2.1摘要

本文基于CNN提出了一种联合局部特征和全局先验信息的灰度图自动着色技术。基于CNN，本文提出了一种综合考虑全局先验信息和局部特征信息的融合特征层来给图片着色。整个框架以端到端的形式训练，而且与一般CNN不同，该框架可以处理任意分辨率的图片。此外，本文使用现有的大规模图片分类数据集来训练模型，将分类标签加入其中，更有效地学习到更具判别性的全局先验信息。与时下最优的算法相比，无论是用户研究还是在一百多年以前的老照片上做的实验，本文算法都取得了显著的提升。

2.2引入

对于传统的上色算法来讲，无论是用户涂色或者图片分割的形式，都需要进行用户交互。但这篇论文里，作者提出了一种完全自动的基于数据驱动的灰度图上色方法，即从整张图片获得全局先验信息和从局部patch中获得局部图片特征联合自动上色。全局先验信息从整张图片的角度提供信息，如图片是室内拍的还是室外拍的，是白天拍的还是晚上拍的等等。局部信息则提供了纹理或者物体信息。综合这两种特征，无论是给什么图片上色，都不需要用户交互。
本文训练网络时使用了图片类别信息，不过这个步骤对于着色来讲并不是必需的。本文使用的色彩空间为CIE Lab颜色空间，通过网络模型来预测图片的色彩信号a和b，最后结合灰度图本身的L信息，进行最终着色。使用Lab颜色空间，不需要进行L通道的计算，这样一来既节省计算资源，又能让预测更准确。整个方法不需要预处理或者后处理。
本算法网络模型包含4个主要部分：低阶特征网络，中阶特征网络，全局特征网络和着色网络。首先，一组共享的低阶特征通过低阶特征网络计算出来。通过使用这些低阶特征，中阶特征网络和高阶特征网络分别进行特征提取，然后再通过融合层进行融合。融合后的特征作为着色网络的输入，最终输出图片的色彩信号。此外，网络还有一个副产品就是预测图片的类别信息。整个网络可以处理任意分辨率的图片。
由于图片的全局先验信息和局部特征是分开计算的，这使得本方法可以将一张图片的全局先验信息和另一张图片的局部特征进行融合，来改变一张图片的风格。例如，如果我们将一张黄昏时候拍摄的照片的全局先验特征和一个晴朗的沙滩风光的局部特征进行融合，我们就会得到一个晴朗的沙滩的黄昏时候的照片风光。除此之外，一张照片也可以被处理成它是在另外一个不同的季节拍摄的效果。这些反映了模型的灵活性。
验证算法时，作者请用户来观看照片，并判断照片是不是自然拍摄的。本算法处理的照片有92.6%被用户认为是“自然的”，而另外一些算法则大概只有70%的概率。对于一些20世纪初期拍摄的黑白照片，本算法也显示了令人信服的效果。
总之，本文贡献有以下几点：
无需用户交互；
端到端的协同网络；
加入图片标签增强性能；
图片风格转换技术；
通过用户研究和百年以上的老照片验证算法。

2.3网络结构

image.png

本文网络结构如图所示，除了着色层的输出层使用Sigmoid激活函数以外，其他层激活函数均使用ReLU激活函数。

2.3.1共享低阶特征

6层的CNN获得图片低阶特征信息，卷积滤波器组是共享的，输送特征至全局特征网络和中阶特征网络。这一点和双胞胎网络相似，但是本模型里只有这一个子部分是共享的。本文没有使用max-pooling来降低feature map的尺度，而是通过增加卷积步长来实现这个效果。不是每个像素连续计算卷积，而是每隔一个像素计算一次卷积。通过padding来使得输出层尺寸是输入层的一半。这样可以替换掉max-pooling层，并且维持很好的性能。本文只使用了33的卷积核，使用11的padding来确保输出尺寸是输入尺寸的一半或者和输入尺寸相等。

2.3.2全局特征

最终的全局特征是一个256维的向量。由于全局特征网络中全连接层的存在，全局特征网络的低阶特征网络部分需要将输入图片的尺寸变换为224*224大小。不过这个不影响整个方法。

2.3.3中阶特征

中阶特征紧接着低阶特征层的输出。由于低阶特征到中阶特征是全卷积的，所以输入是h*w的图片时，输出是h/8 * w/8 * 256的特征。

2.3.4

为了将全局特征的256维向量和和局部特征的h/8 * w/8 * 256进行融合，我们使用以下公式：

image.png

其中，

是坐标(u,v)处的特征，是一个256维的向量，全局特征也是256维向量，而W是256*512矩阵，b是256维偏置向量，所以最后得到融合特征为一个256维向量。W和b都可以通过网络学习得到。这部分可以看作把全局特征和中阶特征通过一个单层网络联合起来，并处理成一个尺寸和中阶特征一致的3D型特征。因此，这使得最后的结果不受类似于全局特征的那种分辨率限制。

2.3.5着色层

特征一旦融合完成，它们会继续被卷积层和上采样层处理。上采样使用最近邻插值法，输出会变成输入的2倍。当最终结果是输入尺寸hw的一半时停止卷积和上采样操作。这部分的卷积层激活函数为Sigmoid函数，这令最后的输出为2个0到1之间的数，这2个数分别作为La*b颜色空间的a和b的值。而L即为灰度值，这是已知的。所以，最后将h/2 * w/2 *2的特征上采样为h * w * 2后与初始灰度图h * w * 1合并，即为彩色图像。整个网络使用MSE(Mean Square Error)准则进行训练，通过BP算法更新网络权值。

2.3.6考虑类别进行着色

只用彩色图片训练效果尚可，但是会出现明显的错误，因为模型难以学习到正确的上下文，比如照片是室内还是室外等。由于网络结构处理不了上下文问题，作者使用图片的类别信息来协同训练模型。类别标签可以用来指导图片的全局特征模型的训练。本文引入了一个包含2个全连接层的小型网络来实现这个功能。包含256个节点的隐含层，和相应数量的类别输出层，本文为205类。这个小型网络的输入是全局特征网络的倒数第二层输出。同样的，使用MSE损失函数来训练模型：

image.png

3实验效果

3.1照片着色效果

image.png

3.2与最优算法的对比实验

image.png

3.3有全局信息(α≠0)和没全局信息时的对比(α=0)，可以看出全局信息很关键

image.png

3.4风格转换实验

image.png

3.5对一百年前的老照片的处理

image.png

3.6不同颜色空间做出来的最后效果

image.png

3.7作者给出了典型的错误

image.png

3.8自己试验

作者在个人主页给出了在线demo，大家可以去试一下：http://hi.cs.waseda.ac.jp:8082/
我试了一些老照片，感觉有风景的都着色的比较好，纯人物的话效果不是很好。个人猜想，可能是树、草、云之类的东西纹理比较单一，容易被识别出来，建筑、室内装饰之类的变化比较大，相对而言训练数据不够丰富。下面是一些测试结果：

1.jpg

2.jpg

3.jpg

4.jpg

最后编辑于：2017.12.08 07:54:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification让世界充满颜色：端到端图片自动着色协同算法

1.论文概要

2.论文内容

2.1摘要

2.2引入

2.3网络结构

2.3.1共享低阶特征

2.3.2全局特征

2.3.3中阶特征

2.3.4

2.3.5着色层

2.3.6考虑类别进行着色

3实验效果

3.1照片着色效果

3.2与最优算法的对比实验

3.3有全局信息(α≠0)和没全局信息时的对比(α=0)，可以看出全局信息很关键

3.4风格转换实验

3.5对一百年前的老照片的处理

3.6不同颜色空间做出来的最后效果

3.7作者给出了典型的错误

3.8自己试验

推荐阅读更多精彩内容