卷积神经网络CNN入门案例
关于卷积神经网络的资料网上很多,不再赘述,这里推荐几篇不错,很容易入门的文章
- 通俗理解卷积神经网络(cs231n课程笔记)(笔者注:看完基本就了解卷积神经网络是个啥了)
- CS231n Convolutional Neural Networks for Visual Recognition - 1
- CS231n Convolutional Neural Networks for Visual Recognition - 2
- 莫烦 - 卷积神经网络 系列教程
关键部分:TensorFlow中重点,tf.nn.conv2d是怎样实现卷积的?
先上代码
LEVEL=3 # LEVEL代表输出通道数
x = tf.placeholder('float32', [1, None, None, 1])
filter_weight = tf.get_variable('weights', [2, 2, 1, LEVEL], initializer = tf.constant_initializer(W))
conv = tf.nn.conv2d(x, filter_weight, strides=[1, 1, 1, 1], padding='SAME')
最关键参数说明:
- 输入的图片x = [x0,x1,x2,x3],这里指定为[1,None,None,1],
- x0指图片的Index,这里只模拟一张图片,所以x0=1,
- x1,x2代表图片的像素大小,例如MNIST图片为28x28像素大小,但是在使用placehoder的时候,我们可以不指定像素的大小;x
- x3代表图像的通道数,例如黑白照片,通道数为1,彩色照片有RGB通道,通道数为3,这里模拟简单黑白图像设置为1
- filter_weight 是滤波器的权重,是一个shape = [2,2,1,3]的多维矩阵,分别代表滤波器height * width =2*2,输入的通道数为1,输出通道数为3,当然你可以随意指定输出的通道数~
- tf.nn.conv2d 中 sriders 为步进数,就是每次移动的次数,strides 必须是 [1, height步进, width步进, 1] 形式
- padding:只能是 "SAME", "VALID",具体SAME/VALID参考之前的教程
输入数据说明
参数解释完了,那下面得看下输入数据到底是啥样了
假设现在有幅3x3的图片M如下图,图像深度为1,写成矩阵如下,此时M的shape = (3,3)
但是我们前面说了,输入的图片要满足(1,3,3,1)的形势,所以我们要把M重新reshape成下面的形式:
M.shape = (1, 3, 3, 1)
M = np.array([
[
[[1],[2],[3]],
[[4],[5],[6]],
[[7],[8],[9]]
]
])
这个矩阵就是下面这么一个鬼,看起来是不是很恶心,不过还好,这个只是TensorFlow用来计算的,我们还是用上面(3x3)的矩阵来计算。
另外一个重要的就是滤波器参数了Weight
我们假设滤波器的参数为:
同样,W.shape = (2, 2, 1, 3),所以我们要经过一次reshape,TensorFlow认识的矩阵如下:
W = np.array([
[[[1,2,3]],
[[4,5,6]]],
[[[7,8,9]],
[[0,1,2]]]
])
这个矩阵稍微好一点~
import tensorflow as tf
import numpy as np
# M 假设是输入的图像矩阵,图像深度为1
M = np.array([
[
[[1],[2],[3]],
[[4],[5],[6]],
[[7],[8],[9]]
]
])
# M.shape = (1, 3, 3, 1)
# M[0,:,:,0] = [[1, 2, 3],
# [5, 6, 7],
# [8, 9, 0]]
# filter_weight,权重
# [2, 2, 1, 3] 代表 2*2过滤器大小,1代表输入的层数,3代表输出的层数
LEVEL = 3
W = np.array([
[[[1,2,3]],
[[4,5,6]]],
[[[7,8,9]],
[[0,1,2]]]
])
# W.shape = (2, 2,3,1)
# W[:,:,0,0] = [[1, 4],[7, 0]]
# W[:,:,0,1] = [[2, 5],[8, 1]]
# W[:,:,0,2] = [[3, 6],[9, 2]]
filter_weight = tf.get_variable('weights', [2, 2, 1, LEVEL], initializer = tf.constant_initializer(W))
biases = tf.get_variable('biases', [LEVEL], initializer = tf.constant_initializer(0))
M = np.asarray(M, dtype='float32')
x = tf.placeholder('float32', [1, None, None, 1])
conv = tf.nn.conv2d(x, filter_weight, strides=[1, 1, 1, 1], padding='SAME')
conv_with_bias = tf.nn.bias_add(conv, biases)
pool = tf.nn.avg_pool(x, ksize=[1, 2, 2, 1], strides=[1, 1, 1, 1], padding='SAME')
with tf.Session() as sess:
tf.global_variables_initializer().run()
convoluted_M = sess.run(conv_with_bias, feed_dict={x: M})
pooled_M = sess.run(pool, feed_dict={x: M})
for i in range(3):
print("convoluted_M",i,':\n', convoluted_M[0,:,:,i])
print("pooled_M: \n", pooled_M)
最终的输出为:
convoluted_M 0 :
[[ 37. 49. 45.]
[ 73. 85. 69.]
[ 39. 44. 9.]]
convoluted_M 1 :
[[ 49. 65. 54.]
[ 97. 113. 84.]
[ 54. 61. 18.]]
convoluted_M 2 :
[[ 61. 81. 63.]
[ 121. 141. 99.]
[ 69. 78. 27.]]
写成标准的矩阵就是