一、简介
F-LSTM和TF-LSTM主要目的是为了取代CNN作为特征提取的工具,来达到对频带间相关性建模的目的。F-LSTM和TF-LSTM也是通过类似卷积的方式,通过一个小的滑动窗来捕获语音的平移不变性。
因为使用Peephole方式的LSTM效果更好一些,因此本文提到了LSTM都是使用Peephole连接方式。
通过对比实验,Grid-LSTM与TF-LSTM特征提取的效果要比CNN好很多,但同时计算速度也慢很多。
二、T-LSTM
T-LSTM就是原始的LSTM,沿着时间轴,将每帧输入LSTM中进行预测。即上图横向。
三、F-LSTM
F-LSTM的形式与T-LSTM类似,只不过输入有变化,其中的
x0 = xt0:F,x1 = xt1:1+F,x2 = xt2:2+F,......,
即将每帧语音按照长为 F的滑动窗 进行分割,并且 步长为S,输入到F-LSTM中。
则特征维度为N的一帧语音被分割为L = (N - F)/S + 1 块。
形式化表述:
其中:
- ij :输入门
- fj :遗忘门
- cj:memory cell
- oj:输出门
- mj:LSTM的输出
F-LSTM单元引入了如下信息:
- 当前时刻输入:xj
- 上一时刻输出:mt-1
- 上一时刻memory:ct-1
优点:
- 与CNN类似,也是采用权值共享减少参数个数;
- 可以提取频带局部结构;
- 卷积通过pooling捕获频率的平移不变性,F-LSTM能够实现类似max-pooling的作用,并且省去了对pooling操作调参的步骤;
四、TF-LSTM
因为语音的时域和频域存在相关性,因此对时频同时建模来引入时频之间的相关性。
形式化表述:
TF-LSTM单元引入了如下信息:
- 当前时刻输入:xt,k
- 当前时刻第k-1个block的输出:mt,k-1
- 上一时刻第 k 个block的输出:mt-1,k
- 上一时刻第 k 个block的memory:ct-1,k
五、Grid-LSTM
TF-LSTM与Grid-LSTM的最大差别就是Grid-LSTM在time-domain和frequency-domain分别各有一个LSTM单元,而TF-LSTM是将time-domain和frequency-domain放在一个LSTM单元里。
Grid-LSTM分别得到时域和频域的输出,然后将两者拼接(concatenate)到一起。
但是两个LSTM单元在训练时计算量很大,导致Grid-LSTM训练速度比TF-LSTM慢很多,但是也可以令gF-LSTM和gT-LSTM的权值共享,可以加快LSTM的训练速度,降低计算开销。
形式化表述:
Grid-LSTM单元引入了如下信息:
- 当前时刻输入:xt,k
- 当前时刻第k-1个block的输出:mt,k-1
- 上一时刻第 k 个block的输出:mt-1,k
- 上一时刻第 k 个block的memory:ct-1,k
- 当前时刻第k-1个block的memory:ct,k-1