本文简单介绍了tensorflow搭建基本神经网络的步骤,有助于掌握神经网络的工作原理和tensorflow的使用方法。
首先导入需要的库并定义相关参数
#coding:utf-8
import numpy as np
import tensorflow as tf
BATCH_SIZE = 8
seed = 2020
Step1:生成或导入数据
rng = np.random.RandomState(seed)
X = rng.rand(32,2)
Y = [[int(x0+x1<1)] for (x0,x1) in X]
print('X:\n',X)
print('Y:\n',Y)
Step2:定义神经网络输入、输出和参数,以及前向传播过程
x = tf.placeholder(tf.float32,shape=(None,2))
y_ = tf.placeholder(tf.float32,shape=(None,1))
w1 = tf.Variable(tf.random_normal([2,3],stddev=1,seed=1))
w2 = tf.Variable(tf.random_normal([3,1],stddev=1,seed=1))
a = tf.matmul(x,w1)
y = tf.matmul(a,w2)
其中tf.placeholder()函数用于占位,已知X的列数为2,样本个数未知时,可用shape=(None,2)表示。
本文定义的神经网络包括输入层(2维)、隐藏层(1层3维)和输出层(1维),故输入层到隐藏层的权重矩阵维度维2×3,隐藏层到输出层维3×1。用tf.matmul()函数分别计算隐含层输出和输出层输出。
Step3:定义神经网络损失函数(loss)和优化方法
loss = tf.reduce_mean(tf.square(y-y_))
train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss)
其中损失函数采用了均方误差mse(mean square error),优化方法选择了梯度下降法,更多的误差函数以及优化方法可参考优化方法和误差函数。
Step4:反向传播过程
以上3步只是定义了神经网络的图,并没有进行实际的运算,相当于拼接好了水管的结构,而水管中没有水的流动。要想实现数据张量(tensor)的流动(flow)就要用到会话(Session)。
with tf.Session() as sess:
init_op = tf.global_variables_initializer()
sess.run(init_op) #参数初始化
print(sess.run(w1)) #输出初始随机参数
print(sess.run(w2))
#训练模型
STEPS = 3000 #定义训练epoch为3000
for i in range(STEPS):
start = (i*BATCH_SIZE) % 32
end = start + BATCH_SIZE #每个epoch选取Batch_size个数据喂入神经网络
sess.run(train_step,feed_dict={x:X[start:end],y_:Y[start:end]})
if i % 500 == 0: #每500个epoch打印模型误差
total_loss = sess.run(loss,feed_dict={x:X,y_:Y})
print('after %d training step(s), loss on all data is %g'%(i,total_loss))
print(sess.run(w1))
刚接触这段代码,我不理解为什么计算train_step以及loss时,feed_dict喂入的数据都是X和Y。其实step1-3就是搭建了如下图所示的管道:如下图所示,在Session中,对参数进行优化和计算模型损失都要分别在x和y_中喂入X和Y。
当然你也可以先计算y,然后再喂入y和y_计算loss.
ypred = sess.run(y,feed_dict={x:X})
total_loss = sess.run(loss,feed_dict={y:ypred,y_:Y})