Abstract

近年来，基于分割的方法在场景文本检测中非常流行，因为分割结果可以更准确地描述各种形状的场景文本，例如弯曲文本。但是，二值化的后处理对于基于分割的检测至关重要，该检测将通过分段方法生成的概率图转换为文本的边界框/区域。在本文中，我们提出了一个名为微分二值化（DB）的模块，该模块可以在分割网络中执行二值化过程。通过与DB模块一起进行优化，分割网络可以自适应地设置二值化的阈值，这不仅简化了后处理，而且还增强了文本检测的性能。基于简单的分割网络，我们在五个基准数据集上验证了DB的性能改进，DB算法在检测准确性和速度方面均始终达到最先进的结果。特别是对于轻量级的主干网络，DB的性能改进意义重大，因此我们可以在检测精度和效率之间寻求理想的折衷方案。具体来说，使用ResNet-18的主干，我们的检测器在MSRA-TD500数据集上以62 FPS的速度达到了82.8的F值。代码地址https：//github.com/MhLiao/DB。

Introduction

近年来，由于其广泛的实际应用，例如图像/视频理解，视觉搜索，自动驾驶和盲人辅助。阅读场景图像中的文本已成为一个活跃的研究领域。
作为场景文本读取的关键组成部分，旨在定位每个文本实例的边界框或区域的场景文本检测仍然是一项艰巨的任务，因为场景文本通常具有各种比例和形状，包括水平，多方向和弯曲文本。
最近，基于分割的文本检测吸引了很多关注，因为它可以描述各种形状的文本，
这得益于它可以从像素级别的预测结果中得到预测的结果。但是，大多数基于分割的方法都需要复杂的后处理，才能将像素级预测结果分组到检测到的文本实例中，从而导致推理过程中大量的时间成本。以两种用于场景文本检测的最新技术为例：
PSENet（Wang et al.2019a）提出了渐进式尺度扩展的后处理以改善检测准确性。像素嵌入（Tian et al.2019）用于根据分割结果对像素进行聚类，它必须计算像素之间的特征距离。

现有的大多数检测方法都使用如图2所示的类似后处理pipline（遵循蓝色箭头）：首先，它们设置了固定的阈值将分割网络生成的概率图转换为二进制图像。然后，一些启发式技术（如像素聚类）用于将像素分组为文本实例。或者，我们的pipeline（遵循图2中的红色箭头）旨在将二值化操作插入到分割网络中以进行联合优化。以这种方式，可以自适应地预测图像的每个位置处的阈值，这可以将像素是前景还是背景完全区分开。但是，标准的二值化函数是不可微的，相反，我们提出了一种二值化的近似函数，称为可微分二值化（DB），当与分段网络一起训练时，该函数是完全可微的。

本文的主要贡献是所提出的DB模块是可区分的，这使得CNN中的二值化过程可以端到端地训练。通过将用于语义分割的简单网络与所提出的DB模块相结合，我们提出了一种健壮且快速的场景文本检测器。从使用DB模块的性能评估中观察到，我们发现我们的检测器比以前的基于最新分段的方法具有几个突出的优势。

我们的方法在五个场景文本基准数据集均实现了更好的性能(包括水平，多方位且弯曲的文本。)
我们的方法比以前的领先方法执行得快得多，因为DB可以提供高度健壮的二值化图，从而极大地简化了后处理。
DB在使用轻量级骨干网时效果很好，在使用ResNet-18的骨干网络时大大提高了检测性能。
由于DB可以在推理阶段删除而不牺牲性能，因此没有额外的内存/时间测试成本。

Relate Work

最近的场景文本检测方法可以大致分为两类：基于回归的方法和基于分割的方法。
基于回归的方法是一系列模型，这些模型直接使文本实例的边界框回归。TextBoxes（Liao et al.2017）修改了锚点和
基于SSD的卷积核的规模（Liu等。2016）用于文本检测。 TextBoxes ++（Liao，Shi，and Bai 2018）和DMPNet（Liu and Jin 2017）应用四边形回归检测多向文本。 SSTD（He et al.2017a）提出了一种注意机制来粗略识别文本区域。 RRD（Liao et al.2018）通过使用旋转不变特征进行分类和使用旋转敏感特征进行回归来将分类和回归分离，以更好地应对多方向和长文本实例。EAST（Zhou et al.2017）和DeepReg（He et al。2017b）对多向文本实例的回归是采用像素级的无anchor方法。 SegLink（Shi，Bai和Belongie（2017）回归了分割边界框并预测了它们的连接，以处理长文本实例。 DeRPN（Xie et al.2019b）提出了一个维度分解区域提议网络，以处理场景文本检测中的比例问题。基于回归的方法通常采用简单的后处理算法（例如非最大抑制）。但是，大多数都是有限的代表不规则形状的精确边界框，例如弯曲的形状。
基于分割的方法通常将像素级预测和后处理算法结合起来以获取边界框。 Zhang等人（2016）通过语义分割和基于MSER的算法检测了多方向文本。在（Xue，Lu，and Zhan 2018）中使用文本边框来分割文本实例，Mask TextSpotter（Lyu等人2018a; Liao等人2019）基于Mask R-CNN以实例分割的方式检测到任意形状的文本实例。
PSENet（Wang et al.2019a）提出了通过不同尺度的kernel来对文本实例进行分割来逐步扩展尺度的方法。（Tian et al.2019）提出了像素嵌入技术，以将分割结果中的像素聚类。PSENet（Wang等人2019a）和SAE（Tian等人2019）为分割结果提出了新的后处理算法，从而降低了推理速度。相反，我们的方法着重于通过将二值化过程包括在训练周期中来改善分割结果，而不会降低推理速度。
快速的场景文本检测方法着重于准确性和推理速度。TextBoxes（Liao等，2017），TextBoxes ++（Liao，Shi和Bai 2018），SegLink（Shi，Bai和Belongie 2017）和RRD（Liao等2018）。
通过遵循SSD（Liu et al.2016）的检测架构实现了快速文本检测。 EAST（Zhou et al.2017）提出应用PVANet（Kim et al.2016）来提高速度。它们中的大多数不能处理不规则形状（例如弯曲形状）的文本实例。与以前的快速场景文本检测器相比，我们的方法不仅运行速度更快，而且可以检测任意形状的文本实例。

Methodology

我们提出的方法的框架如图3所示。首先，将输入图像输入到特征金字塔backbone中。其次，将金字塔特征上采样到相同的比例，并级联以生成特征F。然后，特征F用于预测概率图（P）和阈值图（T）。此后，通过P和F计算近似二元映射（B'）。在训练期间，对概率图，阈值图和近似二元图进行监督，其中概率图和近似二元映射共享相同的监督。在推理期间，可以通过边界框公式模块从近似二元图或概率图轻松获得边界框。

Binarization

Standard binarization

给定一个由分割网络生成的概率图P∈R(H×W)，其中H和W表示该图的高度和宽度，必须将其转换为二进制图P∈R(H×W)，其中值为1的像素被视为有效的文本区域。通常，此二值化过程可以描述如下：

Differentiable binarization

等式1中描述的标准二值化是不可区分的。因此，在训练期间无法与分割网络一起对其进行优化。为了解决这个问题，我们建议使用近似阶跃函数执行二值化：

此近似二值化函数的作用类似于标准二值化函数（请参见图4），但是可微分，因此可以在训练期间与分割网络一起进行优化。具有自适应阈值的可微二值化不仅可以帮助从背景区域区分文本，还可以分离紧密连接的文本实例。图7示出了一些例子。

DB改进性能的原因可以通过梯度的反向传播来解释。

Adaptive threshold

从外观上看，图1中的阈值图类似于（Xue，Lu，和Zhan 2018）中的文本边框图。但是，阈值图的动机和用法与文本边框图不同。在图6中显示了带有/不带有监督的阈值图。即使没有监督阈值图，阈值图也会突出显示文本边框区域。这表明类似边界的阈值图有利于最终结果。因此，我们在阈值图上应用了类似边界的监督，以提供更好的指导。

“实验”部分讨论了有关监督的消融研究。对于其用法，（Xue，Lu和Zhan 2018）中的文本边界图用于拆分文本实例，而我们的阈值图用作二值化的阈值。

Deformable convolution

可变形卷积（Dai等人，2017年; Zhu等人，2019年）可以为模型提供一个灵活的感受野，这对极端长宽比的文本实例特别有利。随后（Zhu et al.2019），在ResNet-18或ResNet-50主干中的conv3，conv4和conv5阶段的所有3×3卷积层中应用了可调节的可变形卷积（He et al.2016a）。

Label generation

Optimization

Experiment

Datasets

SynthText（Gupta，Vedaldi和Zisserman 2016）是一个合成数据集，包含80万张图像。这些图像是从8k背景图像合成的。该数据集仅用于预训练我们的模型。
MLT-2017 dataset是一个多语言数据集。
它包括代表6种不同脚本的9种语言。该数据集中有7200张训练图像，1800张验证图像和9000张测试图像。我们在微调期间使用训练集和验证集。
ICDAR 2015 dataset（Karatzas等，2015）由1000幅训练图像和500幅测试图像组成，这些图像由Google眼镜捕获，分辨率为720×1280。文本实例是单词级别标记。
MSRA-TD500 dataset（Yao等人，2012）是包含英语和中文的多语言数据集。有300张训练图像和200张测试图像。文本实例在文本行级别标记。按照先前的方法（Zhou等，2017; Lyu等，2018b; Long等，2018），我们包括了HUST-TR400的额外400张训练图像（Yao，Bai和Liu 2014）。
CTW1500 datasetCTW1500（Liu et al.2019a）是专注于弯曲文本的数据集。它包含1000个训练图像和500个测试图像。文本实例在文本行级别中进行注释。
Total-Text datasetTotal-Text（Chng和Chan 2017）是一个数据集，包含各种形状的文本，包括水平，多方向和弯曲。包含1255个训练图像和300个测试图像。文本实例在单词级别标记。

Implementation details

训练数据的数据扩充包括：（1）角度范围为（−10◦，10◦）的随机旋转；（2）随机裁剪；（3）随机翻转。将所有处理后的图像重新调整为640×640大小，以提高训练效率。
在推理期间，我们保持测试图像的纵横比，并通过为每个数据集设置合适的高度来重新调整输入图像的大小。 batch size大小为1，在单个线程中使用单个1080ti GPU来测试推理速度。推理时间成本包括模型前向传播时间成本和后处理时间成本。后处理时间成本约为推理时间的30％。

Ablation study

我们对MSRA-TD500数据集和CTW1500数据集进行了消融研究，以显示我们提出的可微分二值化，可变形卷积和不同backbone的有效性。详细的实验结果显示在Tab 1中。
可微分二值化 如图1所示，我们可以看到我们提出的DB在两个数据集上显著提高了ResNet-18和ResNet-50的性能。对于ResNet-18主干网络，DB在MSRA-TD500数据集和CTW1500数据集上进行F度量后，性能分别提高了3.7％和4.9％。对于ResNet-50主干网络，DB带来了3.2％（在MSRA-TD500数据集上）和4.6％（在CTW1500数据集上）的改进。此外，由于可以在推断期间删除DB，因此其速度与没有DB的速度相同。
可变形的卷积如图1所示，可变形卷积还可以带来1.5-5.0的性能提升，因为它为骨干网提供了一个灵活的感受野，而额外的时间成本却很少。对于MSRA-TD500数据集，可变形卷积使F度量增加1.5％（对于ResNet-18）和5.0％（对于ResNet-50）。对于CTW1500数据集，可变形卷积实现了3.6％（使用ResNet-18）和4.9％（使用ResNet-50）的改进。

Supervision of threshold map尽管带有/不带有监督的阈值图在外观上相似，但监督可以带来性能提升。如图2所示，对MLT-2017数据集的监督改进了0.7％（ResNet-18）和2.6％（ResNet-50）。
Backbone我们提出的具有ResNet-50主干的检测器比ResNet-18具有更好的性能，但运行速度较慢。具体来说，最好的ResNet-50模型比最好的ResNet-18模型好2.1％（在MSRA-TD500数据集上）和2.4％（在CTW1500数据集上），而时间成本却大约翻倍。

Comparisons with previous methods

我们将我们提出的方法与以前的方法在五个标准基准上进行了比较，其中包括两个用于弯曲文本的基准，一个用于多方向文本的基准以及两个用于长文本行的多语言基准。图7中显示了一些定性结果。

Curved text detection我们在两个弯曲文本基准（Total-Text和CTW1500）上证明了我们方法的形状鲁棒性。如图3，4所示，我们的方法在准确性和速度上都达到了最先进的性能。具体来说，“ DB-ResNet-50”在Total-Text和CTW1500数据集上的性能分别比以前的最新方法高1.1％和1.2％。 “ DB-ResNet-50”的运行速度比以前的所有方法都要快，并且通过使用ResNet-18主干网可以进一步提高速度，而性能下降很小。与最近在全文本上运行3.9 FPS的基于分段的检测器（Wang等人，2019a）相比，“ DB-ResNet-50（800）”快了8.2倍，“ DB-ResNet-18（800）”快了12.8倍
Multi-oriented text detection ICDAR 2015数据集是一个多向文本数据集，其中包含许多小型和低分辨率文本实例。在图5中，我们可以看到“ DB-ResNet-50（1152）”在准确性方面达到了最先进的性能。与之前最快的方法（Zhou等人，2017）相比，“ DB-ResNet-50（736）”的准确性高出7.2％，运行速度快了两倍。对于“ DB-ResNet-18（736）”，将ResNet-18应用于主干时，速度可以为48 fps，f值为82.3。
Multi-language text detection我们的方法在多语言文本检测方面很强大。如图6，7所示，“ DB-ResNet-50”在准确性和速度上均优于以前的方法。就准确性而言，“ DB-ResNet-50”在MSRA-TD500和MLT-2017数据集上分别比以前的最新方法高1.9％和3.8％。就速度而言，“ DB-ResNet-50”是MSRA-TD500数据集上先前最快的方法（Liao等人，2018）的3.2倍。与先前的最新方法（Liu等人，2018）（82.8 vs 83.0）相比，“ DB-ResNet-18（736）”具有轻量级backbone，可以达到比较的精度，并且运行速度为62 FPS ，它是MSRA-TD500上最快的方法（Liao等人，2018）的6.2倍。通过减小输入大小，速度可以进一步提高到82 FPS（“ ResNet-18（512）”）。

Limitation

我们方法的局限性在于它不能处理“文本在文本内部”的情况，这意味着一个文本实例在另一个文本实例内部。尽管缩小的文本区域对于文本实例不在另一个文本实例的中心区域的情况很有帮助，但是当文本实例恰好位于另一个文本实例的中心区域时，它会失败。这是基于分割的场景文本检测器的常见限制。

Conclusion

在本文中，我们提出了一种用于检测任意形状场景文本的新颖框架，其中包括在分割网络中提出的可微分二值化过程（DB）。实验证明，在速度和准确性方面，我们的方法（ResNet-50主干）在五个标准场景文本基准上始终优于最新方法。特别是，即使使用轻量级的backbone（ResNet-18），我们的方法也可以以实时推理速度在所有测试数据集上实现竞争性能。将来，我们有兴趣将我们的方法扩展为端对端文本识别的方法。

[AAAI2020]论文翻译DB:Real-time Scene Text Detection with Differentiable Binarization