目标:预测图像上每个像素点所属于的类别,分辨出每个像素点属于哪一类物体,以此来得到分割后的图片。
相比于传统CNN网络,比如VGG16,论文作者将最后的全连接网络层全部改成卷积网络,最终得到dense prediction
VGG16模型结构如下:
1.输入为 224x224x3
2.一共13个conv层,3个fc层
3.conv层都是:3x3 kernel,stride 1,pad 1; pool层(一共5层)都是 2x2 max,stride2
所以图片在前向传到的过程中一共缩小了32倍
因为最后的结构需要和原图像的大小一样,所以在最后作者又进行了upsampling操作(conv_transpose)(双线性插值法),还原为原来的大小,不过这样得到的结果(FCN-32)很模糊,区分度不高,论文作者又提出了FCN-16和FCN-8,即先放大2倍然后放大16倍(在pool4后多加了一层1*1的卷积网络得到的结果放大两倍然后在和最后的结果对于相加再进行放大16倍),FCN-8则是在pool3和pool4后加了卷积网络,提取第三层和第四层的信息,得到区分度更高的图像与最后的图像合并得到结果。
结论:参数学习模式都是和传统CNN一样,利用BP算法。因为最后的全连接层全变成卷积网络,所以有了全卷积网络的名称。
模型不足:得到的边缘部分很模糊,需要改进
源码:源码
未完成:不知道怎么自己制作图像分割数据集。还在查阅资料中。。。。。。