Keras复现VGG16及实现花卉分类

VGG网络

VGG网络是2014年ILSVRC竞赛的第二名(第一名是GoogleNet，即后来的inception)，由牛津大学的计算机视觉实验组提出。原始论文地址https://arxiv.org/abs/1409.1556

VGG的出现证明了网络深度的增加可以提升模型的效果，它由一系列的卷积、池化堆叠而成，在论文中作者搭建了不同深度的6种VGG模型，命名A-E，网络深度依次加深。通常VGG16和VGG19是指D、E两个版本。

下表是原始论文中的6个版本VGG结构，A-LRN是在A版本的基础上使用了AlexNet中的LRN层，用来对比。

image

VGG的另一个特点是使用的卷积只有1*1和3*3的卷积，2个3*3的卷积代替5*5卷积，3个3*3卷积代替7*7的卷积，尽管它们的感受野相同，但使用多个小卷积代替大卷积，在保证感受野不变的情况下可以使参数量减小，且提升了网络的深度。比如5*5的卷积需要的参数量是25个，而用2个小的3*3卷积代替只需要18个。

此外VGG中使用了1*1的卷积，作者认为1x1卷积可以增加决策函数的非线性能力，非线性是由激活函数决定的，1x1卷积是线性映射，在同样的维度上映射特征图。

VGG的输入是224*224尺寸的图像，且经过特殊处理后才输入网络，处理不仅包括归一化等常规操作，并且每个像素值还减去了在总的训练集的均值。

在Keras中内置了处理输入的函数。

from keras.applications.imagenet_utils import preprocess_input
img = preprocess_input(img) # img是要输入的图像
# 查看preprocess_input函数的部分源码如下
# 该函数针对TensorFlow、caffe、Torch的处理并不相同，对tf只需将图像像素值缩放到-1和1之间，caffe则将图片通道变为BGR，做中心化但不缩放像素值范围，Torch缩放像素值在0到1之间，然后标准化。

if mode == 'tf':
    x /= 127.5
    x -= 1.
    return x
if mode == 'torch':
    x /= 255.
    mean = [0.485, 0.456, 0.406]
    std = [0.229, 0.224, 0.225]
else:
    if data_format == 'channels_first':
        # 'RGB'->'BGR'
        if backend.ndim(x) == 3:
            x = x[::-1, ...]
        else:
            x = x[:, ::-1, ...]
    else:
        # 'RGB'->'BGR'
        x = x[..., ::-1]
    mean = [103.939, 116.779, 123.68]
    std = None

Keras搭建VGG16并进行花卉分类

一个在线可视化vgg16结构的网站： https://dgschwend.github.io/netscope/#/preset/vgg-16

数据集来自谷歌的一个鲜花数据集，网址http://download.tensorflow.org/example_image/flower_photo.tgz

该数据集比较小，包含五类鲜花的照片，Diasy（小雏菊）、 tulip（郁金香）、rose（玫瑰）、sunflower（向日葵）、dandelion（蒲公英），每一类图片有800张左右，且大小不一，但图像都比较小约为，400x300。

image.png

对数据集的处理，采用npy格式存储数据。OpenCV读取图像后，直接使用preprocess_input 函数处理，然后存入npy文件。标签采用to_categorical进行独热编码转换标签。

使用Keras搭建VGG16，比较方便,按照论文中的结构一层层累积即可。每层卷积使用relu激活函数，最后输出softmax分类，类别为5，优化器采用sgd(在网上一个博客看到说采用Adam优化效果更好，但我试了没有sgd效果好？)，分类交叉熵损失categorical_crossentropy。

Keras的另一个好处是keras.applications模块内置了许多模型，包括VGG、ResNet、InceptionV3、DenseNet121等。因此我们可以使用内置的VGG16,只需修改最后的全连接层输出类别即可。

import numpy as np
from keras.models import Model, load_model
from keras.layers import Dropout, Flatten, Dense, Input
from keras.layers.convolutional import Conv2D, MaxPooling2D
from keras.utils import plot_model,to_categorical
from keras import optimizers
import os
import cv2
from keras.applications import VGG16
from keras.applications.vgg16 import preprocess_input  
from keras.callbacks import TensorBoard

class vgg():
    def __init__(self, shape, num_classes, data_path, label_path, model_path):
        self.shape = shape
        self.num_classes = num_classes
        self.data_path = data_path
        self.label_path = label_path
        self.model_path = model_path
        self.log_path = "./logs"
        self.classes = self.classname()

    def classname(self, prepath="D://Datasets//flower_photos//flower_photos//"):
        # 数据集的类别序号和对应名称，注意的是序号是从1开始，而label中编码实际是从0开始
        classes = os.listdir(prepath)  # 类别序号和名称
        class_dict = {int(Class.split(".")[0]): Class.split(".")[1] for Class in classes[0:5]}
        return class_dict

    def generate_data(self, prepath="D://Datasets//flower_photos//flower_photos//"):
        classes = os.listdir(prepath)  # 类别序号和名称

        data_path = self.data_path
        label_path = self.label_path
        datas = []
        labels = []
        for i, abspath in enumerate(classes):  # prepath的每一个文件目录
            img_names = os.listdir(prepath + abspath)
            for img_name in img_names:  # 子目录中的每一张图片
                img = cv2.imread(os.path.join(prepath + abspath, img_name))  # cv2读取
                if not isinstance(img, np.ndarray):
                    print("read img error")
                    continue
                img = cv2.resize(img, (224, 224))  # 尺寸变换224*224
                # img = img.astype(np.float32)  # 类型转换为float32
                img = preprocess_input(img)
                label = to_categorical(i, self.num_classes)
                labels.append(label)
                datas.append(img)
        datas = np.array(datas)
        labels = np.array(labels)
        np.save(data_path, datas)
        np.save(label_path, labels)
        return True

    def vgg_model(self):  # 自行构建VGG16
        input_1 = Input(shape=self.shape)  # 输入224*224*3
        # 第一部分
        # 卷积 64深度，大小是3*3 步长为1 使用零填充 激活函数relu
        # 2次卷积 一次池化 池化尺寸2*2 步长2*2
        x = Conv2D(filters=64, kernel_size=(3, 3), strides=(1, 1), padding="SAME", activation="relu")(input_1)
        x = Conv2D(filters=64, kernel_size=(3, 3), strides=(1, 1), padding="SAME", activation="relu")(x)  # 64 224*224
        x = MaxPooling2D(pool_size=(2, 2), strides=(2, 2), padding="SAME")(x)  # 64 112*112

        # 第二部分 2次卷积 一次池化
        # 卷积 128深度 大小是3*3 步长1 零填充
        x = Conv2D(filters=128, kernel_size=(3, 3), strides=(1, 1), padding="SAME", activation="relu")(x)
        x = Conv2D(filters=128, kernel_size=(3, 3), strides=(1, 1), padding="SAME", activation="relu")(x)  # 128 112*112
        x = MaxPooling2D(pool_size=(2, 2), strides=(2, 2), padding="SAME")(x)  # 128 56*56

        # 第三部分 3次卷积 一次池化 卷积256 3*3
        x = Conv2D(filters=256, kernel_size=(3, 3), strides=(1, 1), padding="SAME", activation="relu")(x)
        x = Conv2D(filters=256, kernel_size=(3, 3), strides=(1, 1), padding="SAME", activation="relu")(x)
        x = Conv2D(filters=256, kernel_size=(3, 3), strides=(1, 1), padding="SAME", activation="relu")(x)  # 256 56*56
        x = MaxPooling2D(pool_size=(2, 2), strides=(2, 2), padding="SAME")(x)  # 256 28*28

        # 第四部分 3次卷积 一次池化 卷积 512 3*3
        x = Conv2D(filters=512, kernel_size=(3, 3), strides=(1, 1), padding="SAME", activation="relu")(x)
        x = Conv2D(filters=512, kernel_size=(3, 3), strides=(1, 1), padding="SAME", activation="relu")(x)
        x = Conv2D(filters=512, kernel_size=(3, 3), strides=(1, 1), padding="SAME", activation="relu")(x)  # 512 28*28
        x = MaxPooling2D(pool_size=(2, 2), strides=(2, 2), padding="SAME")(x)  # 512 14*14

        # 第五部分 3次卷积 一次池化 卷积 512 3*3
        x = Conv2D(filters=512, kernel_size=(3, 3), strides=(1, 1), padding="SAME", activation="relu")(x)
        x = Conv2D(filters=512, kernel_size=(3, 3), strides=(1, 1), padding="SAME", activation="relu")(x)
        x = Conv2D(filters=512, kernel_size=(3, 3), strides=(1, 1), padding="SAME", activation="relu")(x)  # 512 14*14
        x = MaxPooling2D(pool_size=(2, 2), strides=(2, 2), padding="SAME")(x)  # 512 7*7

        x = Flatten()(x)  # 扁平化，用在全连接过渡
        # 第六部分 三个全连接
        # 第一个和第二个全连接相同 输出4096 激活relu 使用dropout，随机丢弃一半
        x = Dense(4096, activation="relu")(x)
        Dropout(0.5)(x)
        x = Dense(4096, activation="relu")(x)
        Dropout(0.5)(x)  # 输出 4096 1*1
        # 第三个全连接层 输出 softmax分类
        out_ = Dense(self.num_classes, activation="softmax")(x)
        model = Model(inputs=input_1, outputs=out_)
        # print(model.summary())
        sgd = optimizers.sgd(lr=0.001, momentum=0.9, nesterov=True)
        model.compile(sgd, loss="categorical_crossentropy", metrics=["accuracy"])
        # plot_model(model,"model.png")
        return model

    def pretrain_vgg(self):  # 采用预训练的VGG16,修改最后一层
        model_vgg = VGG16(include_top=False, weights='imagenet', input_shape=(224, 224, 3))  # 不包含最后一层
        model = Flatten(name='Flatten')(model_vgg.output)
        model = Dense(self.num_classes, activation='softmax')(model)  # 最后一层自定义

        model_vgg = Model(inputs=model_vgg.input, outputs=model, name='vgg16')
        sgd = optimizers.SGD(lr=0.001, momentum=0.9, nesterov=True)
        # sgd效果比Adam更好
        # adam = optimizers.Adam(lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=None, decay=0.0, amsgrad=False)
        model_vgg.compile(optimizer=sgd, loss='categorical_crossentropy', metrics=['accuracy'])
        # model_vgg.summary()
        return model_vgg

    def train(self, load_pretrain=False, batch_size=32, epoch=50):
        if load_pretrain:
            model = self.pretrain_vgg()
        else:
            model = self.vgg_model()
        # TensorBoard查看日志
        logs = TensorBoard(log_dir=self.log_path, write_graph=True, write_images=True)
        
        data_path = self.data_path
        label_path = self.label_path
        save_path = self.model_path
        x = np.load(data_path)
        y = np.load(label_path)
        # 必须打乱 否则验证集loss和acc会出问题
        np.random.seed(200)
        np.random.shuffle(x)
        np.random.seed(200)
        np.random.shuffle(y)
        model.fit(x, y, batch_size=batch_size, epochs=epoch, verbose=1, validation_split=0.3,
                  callbacks=[logs])
        model.save(save_path)

    def predict(self, img_path="test.jpg"):
        # model = vgg_model((224,224,3),5)
        model_path = self.model_path
        model = load_model(model_path)
        test_img = cv2.imread(img_path)
        test_img = cv2.resize(test_img, (224, 224))
        test_img = preprocess_input(test_img)
        ans = model.predict(test_img.reshape(1, 224, 224, 3))
        max_index = np.argmax(ans, axis=1)  # 预测结果是值范围0-4的行向量，因此对应的类别序号要+1
        print("预测结果是%s"%(self.classes[max_index[0] + 1]))

data = r"D:\Datasets\flower_photos\flower_photos\train_data.npy"
label = r"D:\Datasets\flower_photos\flower_photos\labels.npy"
mode_path = r"D:\Datasets\flower_photos\flower_photos\flowers_5classes.h5"
vgg16 = vgg((224,224,3), 5, data, label, mode_path)
# vgg16.generate_data()
# vgg16.train(batch_size=32,epoch=50)
# vgg16.predict(imgpath)

为了节省时间只训练了30轮，收敛挺快。
TensorBoard查看模型结构如下：

graph_run=.png

训练过程acc和loss变化曲线：

image.png

预测也基本可以成功，懒得放图了。

此外遇到的一个问题记录一哈，刚开始在model.fit之前没有加入打乱data和label，我想着fit本身有个参数shuffle=True，结果训练过程中训练集的acc不断提高，甚至会稳持续在1.000，loss降不下来，始终在十点多，验证集更离谱，有时acc为0，loss保持不变，有时则是acc稳定在0.2，loss降不下。
后来查了发现这个打乱是打乱一个batch里面的数据顺序，在投入数据集训练之前，整个数据集的顺序应该被随机打乱才行。

np.random.seed(200)
np.random.shuffle(x)
np.random.seed(200)
np.random.shuffle(y)

最后编辑于：2019.08.10 22:51:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,482评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,377评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,762评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,273评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,289评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,046评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,351评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,988评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,476评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,948评论 2赞 324
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,064评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,712评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,261评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,264评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,486评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,511评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,802评论 2赞 345

Keras复现VGG16及实现花卉分类

VGG网络

Keras搭建VGG16并进行花卉分类

推荐阅读更多精彩内容