CTC算法详解

和其它文章初衷一样，网上解释很多，但是讲的不是很明白，在看完几篇参考博客后特此记录

简介

先拿语音识别任务来说，如果现在有一个包含剪辑语音和对应的文本，我们不知道如何将语音片段与文本进行对应，这样对于训练一个语音识别器增加了难度。

为了解决上述问题，我们可以先制定一个规则，例如“一个字符对于是个语言片段输入”。对于不同的人来说，他们说话的语速也不一样，这样导致了上述的定义规则不可行。另一个解决办法，手动对齐每个字符在音频中的位置。这种方法对于我们训练模型非常有效，但是不可否认的是这种做法非常耗时。

上面只是拿语音识别来举例，其实在其他一些识别任务中也会出现这个问题，例如手写字符识别，上面两例如下图所示

1.png

Connectionist Temporal Classification (CTC)正适合这种不知道输入输出是否对齐的情况使用的算法，所以CTC适合语音识别和手写字符识别的任务

为了方便下面的描述，我们做如下定义，输入(如音频信号)用符号序列 $X=[x_{1},x_{2},...,x_{T}]$ 表示，对应的输出(如对应的标注文本)用符号序列 $Y=[y_{1},y_{2},...,y_{U}]$ ，为了方便训练这些数据我们希望能够找到输入 $X$ 与输出 $Y$ 之间精确的映射关系。

在使用有监督学习算法训练模型之前，有几个难点：

$X$ 和 $Y$ 都是变长的
$X$ 和 $Y$ 的长度比也是变化的
$X$ 和 $Y$ 相应的元素之间没有严格的对齐(即 $x_{t}$ 与 $y_{u}$ 不一定对齐)

使用CTC算法能克服上述问题。到这里可以知道CTC就是可以解决输入输出对应问题的一种算法。

这里我们首先需要明确的是，还拿语音识别来说，现在使用的CTC常用的场景是RNN后接CTC算法，RNN模型输入是个个音频片段，输出个数与输入的维度一样，有T个音频片段，就输出T个维度的概率向量，每个向量又由字典个数的概率组成。例如网络输入音频个数定为T，字典中不同字的个数为N，那么RNN输出的维度为 $T\times N$ 。根据这个概率输出分布，我们就能得到最可能的输出结果。在接下来的讨论中可以把RNN+CTC看成一个整体，当然也可以将RNN替换成其他的提取特征算法

损失函数的定义：对于给定的输入 $X$ ，我们训练模型希望最大化 $Y$ 的后验概率 $P(Y|X)$ , $P(Y|X)$ 应该是可导的，这样我们就能利用梯度下降训练模型了。

测试阶段：当我们已经训练好一个模型后，输入 $X$ ，我们希望输出 $Y$ 的条件概率最高即 $Y*=\mathop{\arg\max}_{Y}p(Y|X)$ ，而且我们希望尽量快速的得到 $Y*$ 值，利用CTC我们能在低投入情况下迅速找到一个近似的输出。

算法

CTC算法对于输入的 $X$ 能给出非常多的Y的条件概率输出(可以想象RNN输出概率分布矩阵，所以通过矩阵中元素的组合可以得到很多Y值作为最终输出)，在计算输出过程的一个关键问题就是CTC算法如何将输入和输出进行对齐的。在接下来的部分中，我们先来看一下对齐的解决方法，然后介绍损失函数的计算方法和在测试阶段中找到合理输出的方法。

对齐

CTC算法并不要求输入输出是严格对齐的。但是为了方便训练模型我们需要一个将输入输出对齐的映射关系，知道对齐方式才能更好的理解之后损失函数的计算方法和测试使用的计算方法。

为了更好的理解CTC的对齐方法，先举个简单的对齐方法。假设对于一段音频，我们希望的输出是 $Y=[c,a,t]$ 这个序列，一种将输入输出进行对齐的方式如下图所示，先将每个输入对应一个输出字符，然后将重复的字符删除。

2.png

上述对齐方式有两个问题：

通常这种对齐方式是不合理的。比如在语音识别任务中，有些音频片可能是无声的，这时候应该是没有字符输出的
对于一些本应含有重复字符的输出，这种对齐方式没法得到准确的输出。例如输出对齐的结果为 $[h,h,e,l,l,l,o]$ ，通过去重操作后得到的不是“hello”而是“helo”

为了解决上述问题，CTC算法引入的一个新的占位符用于输出对齐的结果。这个占位符称为空白占位符，通常使用符号 $\epsilon$ ，这个符号在对齐结果中输出，但是在最后的去重操作会将所有的 $\epsilon$ 删除得到最终的输出。利用这个占位符，可以将输入与输出有了非常合理的对应关系，如下图所示

3.png

在这个映射方式中，如果在标定文本中有重复的字符，对齐过程中会在两个重复的字符当中插入 $\epsilon$ 占位符。利用这个规则，上面的“hello”就不会变成“helo”了。

回到上面 $Y=[c,a,t]$ 这个例子来，下图中有几个示列说明有效的对齐方式和无效的对齐方式，在无效的对齐方式中举了三种例子，占位符插入位置不对导致的输出不对，输出长度与输入不对齐，输出缺少字符a

4.png

CTC算法的对齐方式有下列属性：

输入与输出的对齐方式是单调的，即如果输入下一输入片段时输出会保持不变或者也会移动到下一个时间片段
输入与输出是多对一的关系
输出的长度小于等于输入

损失函数

这里要明确一点，对于一个标定好的音频片段，训练该片段时，我们希望的输出就是标定的文本，如下图所示，音频说的一个hello，RNN或者其他模型输出的是相同数量的向量，向量里是每个字母的概率

5.png

对于一对输入输出 $(X,Y)$ 来说，CTC的目标是将下式概率最大化
$p(Y|X)=\sum_{A\in\mathcal{A}_{X,Y}} \prod^{T}_{t=1}p_{t}(a_{t}|X)$
解释一下，对于RNN+CTC模型来说，RNN输出的就是 $p_{t}(a_{t}|X)$ 概率，t表示的是RNN里面的时间的概念。乘法表示一条路径的所有字符概率相乘，加法表示多条路径。因为上面说过CTC对齐输入输出是多对一的，例如 $he\epsilon l\epsilon lo\epsilon$ 与 $hee\epsilon l\epsilon lo$ 对应的都是“hello”，这就是输出的其中两条路径，要将所有的路径相加才是输出的条件概率

但是对于一个输出，路径会非常的多，这样直接计算概率是不现实的，CTC算法采用动态规划的思想来求解输出的条件概率，如下图所示，该图想说明的是通过动态规划来进行路径的合并(看不懂也没关系，下面有详细的解释)

6.png

假设我们现在有输入音频 $X$ 对应的标定输出 $Y$ 为单词“ZOO”，为了方便解释下面动态规划的思想，现在每个字符之间还有字符串的首位插入空白占位符 $\epsilon$ ，得到下面结果
$Z=\{\epsilon,Z,\epsilon,O,\epsilon,O,\epsilon\}$
为了便于说明，先定义好下图的横纵坐标轴的含义，横轴是 $X$ 的时间片单位为t，纵轴为 $Z$ 序列单位为s。根据CTC的对齐方式的三个特征，输入有9个时间片，标签内容是“ZOO”， $P(Y|X)$ 的所有可能的合法路径如下图

7.png

$\alpha$ 表示对齐结果合并后(如图3.png)节点的概率。 $\alpha_{s,t}$ 表示上图中坐标为(s,t)节点的概率，该点的概率计算分为下面两种情况：
Case 1：
1）如果 $\alpha_{s,t}=\epsilon$ ，则 $\alpha_{s,t}$ 只能由前一个字符 $\alpha_{s-1,t-1}$ 或者本身 $\alpha_{s,t-1}$ 得到
2）如果 $\alpha_{s,t}$ 不等于 $\epsilon$ ，但是 $\alpha_{s,t}$ 为连续字符的第二个，即 $\alpha_{s}=\alpha_{s-2}$ ( $\alpha_{s-1}=\epsilon$ )，则 $\alpha_{s,t}$ 只能由一个空白符 $\alpha_{s-1,t-1}$ 或者其本身 $\alpha_{s,t-1}$ 得到，而不能由前一个字符得到。

上述两种情况中， $\alpha_{s,t}$ 可以由下式算出，其中 $p_{t}(z_{s}|X)$ 表示在时刻t输出字符 $z_{s}$ 的概率。
$\alpha_{s,t}=(\alpha(s,t-1)+\alpha(s-1,t-1))\cdot p_{t}(z_{s}|X)$

Case 2：
如果 $\alpha_{s,t}$ 不等于 $\epsilon$ ，则 $\alpha_{s,t}$ 可以由 $\alpha_{s,t-1}$ ， $\alpha_{s-1,t-1}$ 以及 $\alpha_{s-2,t-1}$ 得来，可以表示为
$\alpha_{s,t}=(\alpha(s,t-1)+\alpha(s-1,t-1)+\alpha(s-2,t-1))\cdot p_{t}(z_{s}|X)$

从图7中可以看到合法路径由两个起始点，输出两个终止点，最后输出的条件概率为两个终止点输出概率的和。使用这种计算方法就能高效的计算损失函数，下一步的工作表示计算梯度用于训练模型。由于P(Y|X)的计算只涉及加法和乘法，因此是可导的。对于训练集 $\mathcal{D}$ ，模型优化的目标是最小化负对数似然函数
$\sum_{(X,Y)\in \mathcal{D}}-logp(Y|X)$

预测

当我们训练好一个模型后，我们输入 $X$ ，我们的目的是计算下式得到输出
$Y*=\mathop{\arg\max}_{Y}p(Y|X)$

1.一种方法是贪婪算法，取RNN每次输出概率最大的节点，计算方式如下
$A*=\mathop{\arg\max}_{A} \prod^{T}_{t=1}p_{t}(a_{t}|X)$
然后通过去重得到输出结果。

通常这种启发式的算法很有效，但是这种方法忽略了一个输出可能对应多个对齐结果。例如 $[a,a,\epsilon]$ 和 $[a,a,a]$ 各自的概率均小于 $[b,b,b]$ 的概率，但是他们相加的概率比 $[b,b,b]$ 概率高。简单的启发是算法得到结果为 $Y=[b]$ ，但是结果为 $Y=[a]$ 更为合理。考虑到这点第二种方式变的更为合理

2.第二种算法是Beam search的一种变形
先来说一下Beam search算法，该算法有个参数叫做宽度，假设宽度设为3，在RNN的输出中，该算法每个时间t输出时，不同于贪婪算法只找最高的，而是找最高的三个概率作为下一次的输入，依次迭代，如下图所示，每次t时间都是基于t-1输出的最高三个查找当前概率最高的三个。(这里也可以看出，当宽度设置为1时就是贪婪算法)

8.png

因为我们这里想要结合多个对齐能够映射到同一输出的这种情况，这时每次t时间的输出为去重后以及移除 $\epsilon$ 的结果，具体如下图所示

9.png

当输出的前缀字符串遇上重复字符时，可以映射到两个输出，如图9所示，当T=3时，前缀包含a，遇上新的a，则[a]和[a,a]两个输出都是有效的。

当我们将[a]扩展为[a, a]时，我们只需统计之前以空白标记 $\epsilon$ 结尾的所有路径的概率（位于字符中间的ϵ也要统计）。同样的，如果是扩展到[a]，那我们计算的就是不以 $\epsilon$ 结尾的所有路径概率。所以每次的输出只需要记录空白标记 $\epsilon$ 结尾的所有路径的概率和不以 $\epsilon$ 结尾的所有路径概率来进行下一次的概率计算。这个算法的实现，Awni Hannun给出了示例

CTC的特征

条件独立：CTC的一个非常不合理的假设是其假设每个时间片都是相互独立的，这是一个非常不好的假设。在OCR或者语音识别中，各个时间片之间是含有一些语义信息的，所以如果能够在CTC中加入语言模型的话效果应该会有提升。
单调对齐：CTC的另外一个约束是输入 $X$ 与输出 $Y$ 之间的单调对齐，在OCR和语音识别中，这种约束是成立的。但是在一些场景中例如机器翻译，这个约束便无效了。
多对一映射：CTC的又一个约束是输入序列 $X$ 的长度大于标签数据 $Y$ 的长度，但是对于 $X$ 的长度大于 $Y$ 的长度的场景，CTC便失效了。

参考

[1] https://distill.pub/2017/ctc/
[2] https://gist.github.com/awni/56369a90d03953e370f3964c826ed4b0
[3] https://zhuanlan.zhihu.com/p/42719047
[4] https://www.zhihu.com/question/47642307
[5] https://www.cs.toronto.edu/~graves/icml_2006.pdf

欢迎加入OCR交流群：785515057(此群已满)
欢迎加入OCR交流群2：826714963

最后编辑于：2019.12.06 14:20:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,179评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,229评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,032评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,533评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,531评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,539评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,916评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,813评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,568评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,654评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,354评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,918评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,152评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,852评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,378评论 2赞 342

CTC算法详解

简介

算法

对齐

损失函数

预测

CTC的特征

参考

推荐阅读更多精彩内容