【深度学习】Tensorflow实现RNN隐藏层状态持久化

Tensorflow实现RNN隐藏层状态持久化

什么是隐藏层参数

RNN 是包含循环的网络,解决了传统的神经网络不能捕捉序列化数据中动态信息这个问题。RNN可以保存一种上下文的状态,允许信息的持久化。

下图中的RNN网络结构图也是随处可见,基本的RNN网络由输入层、隐藏层、输出层组成,通过隐藏层节点周期性的循环连接,可以使得信息从当前步传递到下一步。无论是广泛使用成熟算法LSTM与BRNN等,都会通过将隐藏层的状态参数传入下一次网络中再运算,实现时序信息的传递。


RNN基本结构

理论描述众多,不做复述,在此重点讲讲Tensorflow框架下的隐藏层参数的持久化实现

Tensorflow中RNN的实现

基本的RNN网络

# 一次给定的迭代中的输入占位符.
words = tf.placeholder(tf.int32, [batch_size, num_steps])

lstm = rnn_cell.BasicLSTMCell(lstm_size)
# 初始化 LSTM 存储状态.
initial_state = state = tf.zeros([batch_size, lstm.state_size])

for i in range(len(num_steps)):
    # 每处理一批词语后更新状态值.
    output, state = lstm(words[:, i], state)

    # LSTM 输出可用于产生下一个词语的预测
    logits = tf.matmul(output, softmax_w) + softmax_b
    probabilities = tf.nn.softmax(logits)
    loss += loss_function(probabilities, target_words)

final_state = state

此段代码看似隐藏层的状态借助变量state,在定义时用全0的Tensor初始化,并在序列迭代过程中进行了更新并依次传入下一次序列迭代中。

但是,Tensorflow的运行模式是先定义网路结构,分配存储空间(并未执行运算),然后在seesion中加载网络结构运算。

上述代码定义的RNN网络,要计算模型损失函数loss,必须调用

session.run([final_state, loss], feed_dict={words: current_batch_of_words})

每次调用session.run()计算时都会完整执行险情定义的网络结构,并对state初始化,并不能实现多个batch间state传递

多个 LSTM 层堆叠

为提高模型的表达能力,可以添加多层 LSTM 来处理数据。类 MultiRNNCell 可以无缝的将其实现:

lstm = rnn_cell.BasicLSTMCell(lstm_size)
stacked_lstm = rnn_cell.MultiRNNCell([lstm] * number_of_layers)

initial_state = state = stacked_lstm.zero_state(batch_size, tf.float32)
for i in range(len(num_steps)):
    # 每次处理一批词语后更新状态值.
    output, state = stacked_lstm(words[:, i], state)

    # 其余的代码.
    # ...

final_state = state

此时state更是个维度是[number_of_layers, batch_size, state_size]的由(c,h)组成的tuple参数

State持久化传递实现

State持久化意义

  1. 时序信息传递模型需要借助state保持时序关系
  2. 内存空间有限,不可能一次性把所有长时序信息全部存入tensorflow,需要分成多个batch依次执行,而state需要连续传递

state持久化方法

  1. tf.nn.dynamic_rnn动态增加时间步长
  2. tf.placeholder分配state存储空间,每次更新batch同时给state赋值
  3. 序列开始前执行session.run(init_state)

1. tf.nn.dynamic_rnn动态增加时间步长

动态增加步长通过给定每个batch不同的时序输入数量,一次seesion执行运算所有的时序state传递

words = tf.placeholder(tf.int32, [batch_size, num_steps])
lstm = rnn_cell.BasicLSTMCell(lstm_size)
stacked_lstm = rnn_cell.MultiRNNCell([lstm] * number_of_layers)
initial_state = stacked_lstm.zero_state(batch_size, tf.float32)
outputs, state = tf.nn.dynamic_rnn(stacked_lstm, inputs= words, initial_state = init_state)

tf.nn.dynamic_rnn自动完成了state的传递,但此方法缺点内存空间有限导致是不能表示较长时序

2. tf.placeholder分配state存储空间

为state使用tf.placeholder提前分配存储空间的方法,Tensorflow的开发者Eugene Brevdo给出的方法见此

c_state = tf.placeholder(...)
h_state = tf.placeholder(...)
initial_state = tf.nn.rnn_cell.LSTMStateTuple(c_state, h_state)

sess.run(..., feed_dict={c_state: ..., h_state: ...})

LSTM的隐藏层状态是两组参数,所以分别定义两块占位符分别赋值,再组合成tf.nn.rnn_cell.LSTMStateTuple的state结构

但此方法也存在问题,当计算中有多个batch的数据,或者LSTM的网络层数大于1,c_state h_state会存在多组参数,不便赋值操作。
且从前一序列得到的state封装结构中不易解析出各参数赋值给对应的c_state``h_state

3. 序列开始前执行session.run(init_state)

lstm = rnn_cell.BasicLSTMCell(lstm_size)
stacked_lstm = rnn_cell.MultiRNNCell([lstm] * number_of_layers)
# 初始化 LSTM 存储状态.
initial_state = stacked_lstm.zero_state(batch_size, tf.float32)
# 更新状态值.
output, final_state = stacked_lstm(input, initial_state)

...

state = session.run(initial_state)  # 或者 initial_state.eval()
cost, state = session.run([output, final_state],
                                 {input: x,
                                  initial_state: state})

借助tensorflow先定义后执行的原理:

  1. 在会话中进行序列循环之前,执行Tensor运算 session.run(initial_state),将会仅仅执行网络模型定义中对计算initial_state有关联的这部分结构,并返回用0初始化的结果存入state
initial_state = stacked_lstm.zero_state(batch_size, tf.float32)
  1. 后续序列循环执行 session.run([output, final_state], {input: x, initial_state: state})的过程中不会调用stacked_lstm.zero_state()重新计算initial_state,而是从会话执行命令中对initial_state直接赋值,通过控制会话传入值来达到初始化隐藏层状态的初始化或者持久化
  2. 序列循环开始后,第一次传入的state是在执行session.run(initial_state)得到的初始值,后续传入的state的将是RNN上一序列计算后输出的更新值
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容