最近的股市震荡的有点厉害,跌的有点惨,面对如此情景,我波澜不惊,原因很简单,前几年我小试牛刀的时候我意识到了这不是我这种散户能玩得懂的,如今的我早已空仓。万物皆可 AI,如何用深度学习的方法去理解呢?当然,本篇不是一个指导买股票的文章,也不会用股票的数据信息去训练模型,我付不起这样的责任,也同样因为股票的市场行情远非一点股票价钱数据就可以解释的。下面我们来聊一聊正事,循环神经网络(RNN)。
为什么要引入循环神经网络?思考一个问题,如果问你明天股票的市场行情是看涨还是看跌,大概率你会搜索一下近一段时间的行情趋势,然后给我一个猜测的回答,我们认为明天的行情与近一段时间的股票价格是有关系的,我们人脑会对此进行一定的推测,我们知道神经网络在某一种程度上来说,也是一种模拟人脑的行为,那我们的神经网络可以做预测吗?我们之前用于训练神经网络的是一个独立的数据信息,我们把它们打乱顺序,还是可以得到正确的结果,很显然,股票的价钱信息是不能打乱顺序的,这两种数据有什么区别?
一种数据是顺序无关的,一种数据是顺序有关的。
我们之前的网络不好用了,我们需要新的网络去解决这个问题——循环神经网络。循环神经网络遍历数据时,会保存数据的状态信息,这个状态信息包含之前数据的信息,它的内部有环状结构,前一项数据项的输出,是下一个数据项的输入,这样后一项数据会受到前一项数据的影响。
我们用一段矩阵处理的代码来解释这个问题:
def deal(): timesteps = 100 input_features = 32 output_features = 64 # 随机输入,维度:100 * 32 inputs = np.random.random((timesteps, input_features)) print('input: ', inputs) # 初始化为全 0 向量 state_t = np.zeros((output_features,)) # 维度:64 * 32 W = np.random.random((output_features, input_features)) # 维度:64 * 64 U = np.random.random((output_features, output_features)) # 行向量,64 b = np.random.random((output_features,)) successive_outputs = [] for input_t in inputs: # 双曲正切函数 output_t = np.tanh(np.dot(W, input_t) + np.dot(U, state_t) + b) print(output_t) successive_outputs.append(output_t) state_t = output_t # 100 * 64 final_output_sequence = np.stack(successive_outputs, axis=0) print('output: ', final_output_sequence)
知道了原理,老规矩,我们还是用 Keras 实现,那种内置的实现,真是熟悉的味道,SimpleRNN。SimpleRNN 可以返回每一步输出的完整序列,也可以返回最终的结果,由 return_sequences 参数控制(True 时,返回完整序列),有了这样一个好用的循环神经网络,那我们就可以重新思考 IMDB 电影评论分类问题了。因为我们有了之前的经验,因此这一个的代码就很简单了:
defimdb_rnn(): max_features = 10000 # 只用前 500 个单词 maxlen = 500 (input_train, y_train), (input_test, y_test) = imdb.load_data(num_words=max_features)
input_train = sequence.pad_sequences(input_train, maxlen=maxlen)
model = Sequential()
# 将正整数(索引值)转换为固定尺寸的稠密向量,只能用作第一层 model.add(Embedding(max_features, 32))
# model.add(LSTM(32)) # 与下一行相互替换 model.add(SimpleRNN(32))
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc'])
history = model.fit(input_train, y_train, epochs=10, batch_size=128, validation_split=0.2)
acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']
epochs = range(1, len(acc) + 1)
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.legend()
plt.show()
plt.figure()
plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.legend()
plt.show()
差不多 85% 的准确率,还算可以,毕竟我们只用了每条评论的前 500 个单词,我试着调大单词数目到 1000,除了时间延长了一点外,准确率仅仅提高了 2%,有点得不偿失,为什么会出现这样的情况呢?原因是 SimpleRNN 的效果不好,那简单,换换其他的 RNN 方法吧。Keras 中还有 LSTM 和 GRU 这样的循环神经网络。