Aerosolve Demo 之 Image Impressionism

这个 demo 展示了如何将图片转换成印象派风格, 非常有趣, 本文将从数据流的角度分析作者是如何做的.

Demo 的具体步骤和效果可见 GitHub.

从图片生成训练数据

读取每个像素 RGB 的值, 并归一化.

下图是由(0,0)坐标像素生成的 Pixel 对象, RGB 的值都是由原值除以 255 得到的.

Pixel -> Example

接着通过 pixelToExample 方法, 每个像素会被转换为一个 Example 对象.

RGB 分别对应3个 FeatureVector, 其中 C 是 channel 的缩写, 存储了对应的颜色, $target 的值会作为输出参与训练.

$target 这个键名是在 image_impressionism.conf 中配置的, 该文件还记录了数据路径/模型参数/特征转换方法和参数等其他配置.

下图是一个 Example 实例.

这是完全展开后转成 json 格式的示例.

{
    "example": [
        {
            "stringFeatures": {
                "C": [
                    "Red"
                ]
            },
            "floatFeatures": {
                "$target": {
                    "": 0.5529411764705883
                }
            }
        },
        {
            "stringFeatures": {
                "C": [
                    "Green"
                ]
            },
            "floatFeatures": {
                "$target": {
                    "": 0.5725490196078431
                }
            }
        },
        {
            "stringFeatures": {
                "C": [
                    "Blue"
                ]
            },
            "floatFeatures": {
                "$target": {
                    "": 0.5568627450980392
                }
            }
        }
    ],
    "context": {
        "floatFeatures": {
            "LOC": {
                "X": 0,
                "Y": 0
            }
        }
    }
}

存储

最后用 thrift 将特征对象序列化后压缩存储.

sc.parallelize(pixels)
  .map(x => pixelToExample(x, true))
  .map(Util.encode)
  .saveAsTextFile(output, classOf[GzipCodec])

训练模型

特征转换

所有特征会按顺序依次应用3类 transform: context_transform, item_transform, combined_transform.

每类 transform 的名称及相关参数都需要在 image_impressionism.conf 中配置.

Context Transform

Context transform 会转换 Example 中的 context 属性, 并将新特征存入 context.stringFeatures.

quantize_pixel_location {
  transform: multiscale_grid_quantize
  # Grid up the pixels into squares of the following sizes.
  # Use relatively prime grids to create jitter.
  buckets : [ 3.0, 7.0, 17.0, 31.0, 47.0, 67.0, 79.0, 89.0, 97.0 ]
  field1: "LOC"
  value1: "Y"
  value2: "X"
  output: "QLOC"
}

此处用的是 multiscale_grid_quantize 方法, 实现该方法的类为 MultiscaleGridQuantizeTransform.

该方法将二维平面划分成不同大小的正方形格子, 然后将每个格子里的点都映射到该格子.

即用更大的粒度来描述平面, 借此消除局部差异, 提取共同特征.

格子的 ID 由其边长和左上角点的坐标拼接生成.
例如 [3.0]=(0.0,0.0) 包含了 (0,0),(0,1),(0,2),(1,0),(1,1),(1,2),(2,0),(2,1),(2,2) 9个点.

buckets 配置了会用哪些边长的格子, field1/value1/value2 可结合之前的特征示例体会含义, output 是新特征的名字.

下图是坐标(0,0)转换后得到的9个新特征.

Item Transform

Item transform 将转换 Example.example 中每个 FeatureVector, 转换后的新特征会存入 stringFeatures.

identity_transform {
  transform: list
  transforms: []
}

list 表示将逐个应用 transforms 列表中的变换, 空列表意味着不做任何转换.

Combined Transform

Combined transform 将会把 context 和 example 中每个 FeatureVector 结合起来, 并存入后者的 stringFeatures 中.

代码实现分为两步:

拷贝 context.stringFeatures 至 FeatureVector.stringFeatures.
对 example 中每个 FeatureVector 的 stringFeatures 应用配置中指定的 transform.

C_X_QLOC {
  transform: cross
  field1: "C" // Color channel
  field2: "QLOC" // Quantized location
  output: "C_x_QLOC"
}

combined_transform {
  transform: list
  transforms: [
    C_X_QLOC
  ]
}

cross 对应的类为 CrossTransform, 它会把 field1/field2 的值拼接起来作为 output 的值.

需要注意的是:

转换前每个 Example 对象中 example 属性有3个 FeatureVector.
转换后3个 FeatureVector 将分别转换为1个 Example 对象, 每个 Example 对象的 example 属性只有1个 FeatureVector.

下图为转换后的一个 Example 对象:

训练

Aerosolve 的训练算法都是基于 Spark 实现的, 所以和训练有关的代码都放在一个独立的子项目 training 中.

这个 demo 用的是线性回归模型, 训练方法为 SGD (Stochastic Gradient Descent), 代码实现在 LinearRankerTrainer 中.

每次迭代计算权重前, 会从 FeatureVector 取出相关的目标值和特征, 如下图:

权重训练完后的形式为 ((feature family, feature), weigth), 如下图:

保存模型

模型由两部分组成: 一个 ModelHeader 和若干个 ModelRecord
(ModelHeader 实际上会保存为成一个特殊的 ModelRecord).

线性模型的 ModelHeader 只用到了两个属性: modelType 的值会设置为 linear, numRecords 会设为 weights.size.

模型也是用 thrift 序列化后存储.

应用模型输出印象派图片

宏观视角

前面从微观角度观察了整个数据流, 接着我们从宏观的角度看看它和线性模型是怎么对接的.

线性模型实质是一个方程组, 训练权重的过程即求解自变量系数的过程.

该 demo 的方程组共有 num_pixels * 3 个方程, 每个像素会对应3个方程,
这是因为每个像素有3个 color channel (red/green/blue).

方程的因变量 y 即 r/g/b 归一化后的值.

自变量的个数 = 不同特征的总个数, 自变量只有0和1两种取值, 0表示该方程中不含此特征, 1表示包含.

特征有3类:

Red, Green, Blue
离散化后的坐标, 例如: [3.0]=(0.0,0.0)
前两类的交叉组合, 例如: Red^[3.0]=(0.0,0.0)

第2类特征总数 num_loc 和像素个数有关.

num_loc = sum([(int(image_width / b) + 1) * (int(image_height / b) + 1) for b in buckets])

总的特征个数 = 3 + num_loc + num_loc * 3 = num_loc * 4 + 3

每个方程只有少数特征对应的自变量取值为1, 所以不同类特征的影响范围是不同的.

第1类会影响 1/3 的方程.
第2, 3类特征只会影响和格子中像素有关的方程.
第2类会影响 边长^2 * 3 个, 第3类为 边长^2 个.

单张图片是怎么生成的

输入数据是每个点的坐标, 带入模型后按 color channel 输出预测值, 合并后就得到了该点的 RGB 值.

其过程就像在大方格上摞小方格, 最终的高度即预测值.

这样的预测结果肯定好于只做单一划分的方法, 即包含了整体信息, 也包含了局部差异.
我觉得 airbnb 预测房价也应该是类似的想法.

动图是怎么生成的

生成每一帧的方法和单张图片一样, 只是每帧用到的权重个数不一样.

假设总共有 N 个权重, 第 i 帧只会用前 i/(N-1) 个来绘制图像, i∈{0, 1, ..., N-1}.
这样图片就会渐渐的由模糊变清晰.

其他

Readme 中对最红, 最蓝的解释不太恰当, 详见 Google Group.
项目还在发展阶段, 从新旧代码的质量就能看出来. 例如会看到一些复制粘贴的实现.
代码中有一些重复计算的问题. 例如理论上 context 只会计算一次, 但实际会计算多次, 不过我觉得影响不大.
- 还未成为性能瓶颈. 我测试了修改后的速度, 并未提升多少. 该demo的时间多花在文件读取上, 每轮迭代约5分钟, 约一半时间是在读文件.
- 新代码中重复计算的情况有所改善, 说明作者知道这个事情.
- 项目还在发展期, 不需要过早优化.

Debug 的小技巧

换一个像素较少的图片, 这样会大大节省每个步骤的时间.
换图后需修改 image_impressionism.conf 中 make_impression 的宽高, 让生成的图片大小更合适.
将 build.gradle 中 spark 的依赖从 provided 改为 compile.
将 JobRunner.scala 作为 debug 的入口, 记得加上 .setMaster("local").
com.airbnb.aerosolve:training 的版本有点低, 可更换为最新版.
Ubuntu 用户如不想编译安装 thrift, 可用 docker thrift. Mac 用户可用 brew 安装.

最后编辑于：2017.12.03 02:32:23

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,179评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,229评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,032评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,533评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,531评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,539评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,916评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,813评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,568评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,654评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,354评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,918评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,152评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,852评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,378评论 2赞 342