【火炉炼AI】深度学习006-移花接木-用Keras迁移学习提升性能

(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2, Keras 2.1.6, Tensorflow 1.9.0)

上一篇文章我们用自己定义的模型来解决了二分类问题，在20个回合的训练之后得到了大约74%的准确率，一方面是我们的epoch太小的原因，另外一方面也是由于模型太简单，结构简单，故而不能做太复杂的事情，那么怎么提升预测的准确率了？一个有效的方法就是迁移学习。

迁移学习其本质就是移花接木：将其他大数据集（比如ImageNet等）上得到的网络结构及其weights应用到一个新的项目中来，比如此处的猫狗二分类问题。当然，ImageNet中肯定有猫和狗这两个类别，可以说此处的小数据集是ImageNet的一个子集，但是，对于和ImageNet完全没有任何关系的其他数据集，迁移学习也有一定的效果，当然，对于两个数据集的相关性比较差的数据集，使用迁移学习可能效果不太好。

具体做法是：使用一个成熟的网络结构（比如此处用VGG16)和参数，把它的全连接层全部都去掉，只保留卷积层，这些卷积层可以看成是图片的特征提取器（得到的特征被称为bottleneck features），而全连接层是分类器，对这些图片的特征进行有效分类。对于新项目，我们要分类的类别数目并不是ImageNet的1000类，而是比如此处的2类。故而分类器对我们毫无用处，我们需要创建和训练自己的分类器。如下为VGG16网络的结构：

image

其中的Conv block 1-5 都是卷积层和池化层，组成了图片的特征提取器，而后面的Flatten和Dense组成了分类器。

此处我们将Conv block 1-5的结构和参数都移接过来，在组装上自己的分类器即可。

在训练时，我们可以先我上一篇博文一样，建立图片数据流，将图片数据流导入到VGG16模型中提取特征，然后将这些特征送入到自定义的分类器中训练，优化自定义分类器的参数，但是这种方式训练速度很慢，此处我们用VGG16的卷积层统一提取所有图片的特征，将这些特征保存，然后直接加载特征来训练，加载数字比加载图片要快的多，故而训练也快得多。

我这篇博文主要参考了：keras系列︱图像多分类训练与利用bottleneck features进行微调（三），这篇博文也是参考的Building powerful image classification models using very little data，但我发现这两篇博文有很多地方的代码跑不起来，主要原因可能是Keras或Tensorflow升级造成的，所以我做了一些必要的修改。

1. 准备数据集

首先使用预训练好的模型VGG16来提取train set和test set图片的特征，然后将这些特征保存，这些特征实际上就是numpy.ndarray，故而可以保存为数字，然后加载这些数字来训练。

# 此处的训练集和测试集并不是原始图片的train set和test set，而是用VGG16对图片提取的特征，这些特征组成新的train set和test set
from keras.preprocessing.image import ImageDataGenerator
from keras.models import Sequential
from keras.layers import Dropout, Flatten, Dense
from keras import applications
def save_bottlebeck_features():
    datagen = ImageDataGenerator(rescale=1. / 255) # 不需图片增强

    # build the VGG16 network
    model = applications.VGG16(include_top=False, weights='imagenet') 
    # 使用imagenet的weights作为VGG16的初始weights,由于只是特征提取，故而只取前面的卷积层而不需要DenseLayer，故而include_top=False

    generator = datagen.flow_from_directory( # 产生train set
        train_data_dir,
        target_size=(IMG_W, IMG_H),
        batch_size=batch_size,
        class_mode=None, 
        shuffle=False) # 必须为False，否则顺序打乱之后，和后面的label对应不上。
    bottleneck_features_train = model.predict_generator(
        generator, train_samples_num // batch_size) # 如果是32，这个除法得到的是62，抛弃了小数，故而得到1984个sample
    np.save('E:\PyProjects\DataSet\FireAI\DeepLearning\FireAI006/bottleneck_features_train.npy', bottleneck_features_train)
    print('bottleneck features of train set is saved.')

    generator = datagen.flow_from_directory(
        val_data_dir,
        target_size=(IMG_W, IMG_H),
        batch_size=batch_size,
        class_mode=None,
        shuffle=False)
    bottleneck_features_validation = model.predict_generator(
        generator, val_samples_num // batch_size)
    np.save('E:\PyProjects\DataSet\FireAI\DeepLearning\FireAI006/bottleneck_features_val.npy',bottleneck_features_validation)
    print('bottleneck features of test set is saved.')

经过上面的代码，trainset图片集的特征被保存到E:\PyProjects\DataSet\FireAI\DeepLearning\FireAI006/bottleneck_features_train.npy文件中，而test set的特征也被保存到../bottleneck_features_val.npy中。

2. 构建模型并训练

很显然，此处我们并不要提取图片的各种特征，前面的VGG16已经帮我们做完了这件事，所以我们只需要对这些特征进行分类即可，所以相当于我们只建立一个分类器模型就可以。

用keras建立一个简单的二分类模型，如下：

def my_model():
    '''
    自定义一个模型，该模型仅仅相当于一个分类器，只包含有全连接层，对提取的特征进行分类即可
    :return:
    '''
    # 模型的结构
    model = Sequential()
    model.add(Flatten(input_shape=train_data.shape[1:])) # 将所有data进行flatten
    model.add(Dense(256, activation='relu')) # 256个全连接单元
    model.add(Dropout(0.5)) # dropout正则
    model.add(Dense(1, activation='sigmoid')) # 此处定义的模型只有后面的全连接层，由于是本项目特殊的，故而需要自定义

    # 模型的配置
    model.compile(optimizer='rmsprop',
                  loss='binary_crossentropy', metrics=['accuracy']) # model的optimizer等

    return model

模型虽然建立好了，但我们要训练里面的参数，使用刚刚VGG16提取的特征来进行训练：

# 只需要训练分类器模型即可，不需要训练特征提取器
train_data = np.load('E:\PyProjects\DataSet\FireAI\DeepLearning\FireAI006/bottleneck_features_train.npy') # 加载训练图片集的所有图片的VGG16-notop特征
train_labels = np.array(
    [0] * int((train_samples_num / 2)) + [1] * int((train_samples_num / 2)))
# label是1000个cat，1000个dog，由于此处VGG16特征提取时是按照顺序，故而[0]表示cat，1表示dog

validation_data = np.load('E:\PyProjects\DataSet\FireAI\DeepLearning\FireAI006/bottleneck_features_val.npy')
validation_labels = np.array(
    [0] * int((val_samples_num / 2)) + [1] * int((val_samples_num / 2)))

# 构建分类器模型
clf_model=my_model()
history_ft = clf_model.fit(train_data, train_labels,
              epochs=epochs,
              batch_size=batch_size,
              validation_data=(validation_data, validation_labels))

-------------------------------------输---------出--------------------------------

Train on 2000 samples, validate on 800 samples
Epoch 1/20
2000/2000 [==============================] - 6s 3ms/step - loss: 0.8426 - acc: 0.7455 - val_loss: 0.4280 - val_acc: 0.8063
Epoch 2/20
2000/2000 [==============================] - 5s 3ms/step - loss: 0.3928 - acc: 0.8365 - val_loss: 0.3078 - val_acc: 0.8675
Epoch 3/20
2000/2000 [==============================] - 5s 3ms/step - loss: 0.3144 - acc: 0.8720 - val_loss: 0.4106 - val_acc: 0.8588

.......

Epoch 18/20
2000/2000 [==============================] - 5s 3ms/step - loss: 0.0479 - acc: 0.9830 - val_loss: 0.5380 - val_acc: 0.9025
Epoch 19/20
2000/2000 [==============================] - 5s 3ms/step - loss: 0.0600 - acc: 0.9775 - val_loss: 0.5357 - val_acc: 0.8988
Epoch 20/20
2000/2000 [==============================] - 5s 3ms/step - loss: 0.0551 - acc: 0.9810 - val_loss: 0.6057 - val_acc: 0.8825

--------------------------------------------完-------------------------------------

将训练过程中的loss和acc绘图如下：

image

很显然，在第5个epoch之后，train set和test set出现了很明显的分离，表明后面出现了比较强烈的过拟合，但是在test set上的准确率仍然有90%左右。

可以看出，相对上一篇文章我们自己定义的三层卷积层+两层全连接层的网络结构，用VGG16网络结构的方法得到的准确率更高一些，而且训练所需要的时间也更少。

注意一点：此处我们并没有训练VGG16中的任何参数，而仅仅训练自己定义的分类器模型中的参数。

########################小**********结###############################

1，迁移学习就是使用已经存在的模型及其参数，使用该模型来提取图片的特征，然后构建自己的分类器，对这些特征进行分类即可。

2，此处我们并没有训练已存在模型的结构和参数，仅仅是训练自定义的分类器，如果要训练已存在模型的参数，那就是微调（Fine-tune）的范畴了

#################################################################

注：本部分代码已经全部上传到（我的github）上，欢迎下载。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,482评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,377评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,762评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,273评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,289评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,046评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,351评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,988评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,476评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,948评论 2赞 324
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,064评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,712评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,261评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,264评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,486评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,511评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,802评论 2赞 345

【火炉炼AI】深度学习006-移花接木-用Keras迁移学习提升性能