RNN 循环神经网络的基本知识
其实循环神经网络我对了好久都没有读懂,之前还研究过源代码,但是到后来没有多久又忘记了。今天在我已经非常熟悉CNN的情况下,我想再仔细研究一下RNN。
RNN网络创建的目的
CNN算法是为了提取一个二维图像里的特征,形成一个特征图,送到下一级,由下一级多判断使用。
我想RNN也是普通的神经元,他的目的也是为了识别特征,并且把识别出来的特征传输到下一级,供下一级做判断。所以我们还是按照这个思虑来判断吧。
为了借鉴CNN的信息,我们先看看和RNN网络等价的网络
看到这里的X0,X1,X2...Xn了吗,其实和CNN 算法的输入是一样的,只不过CNN的输入是按照二维来看待的,而RNN里输入的数据是一位的。说到一维的我又想起来了全连接层,
在Layer L2中,共四个神经元,每个神经元同样也是接受X1...Xn个输入吗?
所以在RNN中的一个Cell和普通的神经元是一个意思,都是接收n个数据的输入,然后在内部与权重相乘求和之后,输出给下一个层级的神经元而已。
所以这里我开始划重点了,在深度学习里,非常要看重的两个概念是:
1、特征向量,就是一个实例的描述,比如一幅图像(h,w)是一个实例,一句话也是一个实例,一个单词也是一个实例,也叫作输入信号。
2、神经元,是基本的触发单元,所谓的神经元,就是你给他几个输入,和他胃口,他就给你触发一个信号。当然神经元是可以串联的,串联起来的神经元称为神经网络。
那么我们看图一的神经元和图二的神经元,最大的不同是图二是把一个实例的所有特征输入给了一个神经元,然后神经元把触发信号连接到下一个级。图二里的神经元,其实是一个神经元,输入的X0到Xn其实是串型进入,而他的激励信号刚好h0到hn也是串型输出的。就是说给一个X0,他就有个h0输出,再给个X1,他又有个h1输出。而且神经元的权重参数也是同一个。你看到的那种向右的箭头,并不是输出。
如果按照这个道理来说,那么RNN和普通的单输入神经元不就一样了,当然不可能一样,最大的不同是什么?就是在RNN里,一个神经元内部可以保持状态的。他的输入和激励就像是有一块铁皮接收别人的捶打,每次只能锤一拳头,但是重复锤这个地方,影响也就能显现出来了。就是说每次输入一个X0,除了根据权重W进行输出之外,他还把当前的状态保存在内部,下个输入会对这个状态会有影响。
而且每次来一个输入会和输出一起触发神经元,一起激发神经元的输出。
因此RNN称作循环神经网络,这个循环的意思就是他内部的状态是递归的,也就是前面的输入影响到了输出和内部状态,也就影响到了后边的输出,也就是前面的输出影响到了后边的输出。因此把循环神经元改个更加形象的名字就是:串型输入、递归影响的神经元。
现在终于对循环神经元有了基本理解了,首先是神经元,他也可以接受X0到Xn个特征输入,并且最终会有一个输出hn,中间还有其它的输出h0到hn-1,但是我们不关心,我们只需要知道有X0个输入,有最终的一个输出hn,当然也可以跟触发信号了。而且我们知道输入X0和输入Xn是有顺序的,他们输入的不同输出的也不同。
这个很好理解,说:“我看到一只狗”和“狗看到一个我”表示起来意思不一样的。“我有10块钱”和“10块钱有我”也是不一样的。
当然在具体实现的时候输入的维度并不能无限加深,我们总是在定义神经元的时候就是确定了最大维度。下面我们开始进行真正的实践。
实现神经网络
lstm_cell = tf.contrib.rnn.BasicLSTMCell(n_hidden_units, forget_bias=1.0, state_is_tuple=True)
这就定义了一个神经元,n_hidden_units代表LSTM Cell个神经元个数,其实输入一个单词的维度,
outputs, final_state = tf.nn.dynamic_rnn(lstm_cell, X_in, time_major=False)
一篇文章的单词的长度代表的是时序。当time_major=False时,输入数据x_in就是一篇文章,他的格式是(batch_size, time_steps, inputs_size)。
如果是在用在一幅图像上,比如mnist的图像(28,28),应该怎么输入到这个网络里呢?LSTMCell的大小应该是28,就是代表一个输入数据的维度。dynamic_rnn的x_in输入应该是(batch_size, 28行, 28维)。