资讯详情

【计算机视觉】TextFuseNet:具有更丰富融合特征的场景文本检测

  • 文献题目:TextFuseNet: Scene Text Detection with Richer Fused Features
  • 文献时间:2020

摘要

  • 任何形状的文本检测在自然场景中都是一项极具挑战性的任务。我们提出了一个新方法不同,我们提出了一个新的框架,即基于有限的特征来感知文本 TextFuseNet,文本检测采用了更丰富的特征。更具体地说,我们建议从三个层次的特征表达中感知文本,即字符级别、单词级别和整体级别,然后引入一种新颖的文本表示集成技术,以帮助实现鲁棒的任何文本检测。多级特征意味着文本可以通过将文本分解成单个字符来充分描述文本,并保持其一般语义。然后,TextFuseNet 采用多路径融合架构从不同层次收集和合并文本的特点,可以有效地对齐和整合不同的表示。在实践中,我们提出 TextFuseNet 学习更充分地描述任何形状的文本,抑制误报,产生更准确的检测结果。对于缺乏字符级注释的数据集,我们提出的框架也可以通过弱监督进行训练。几个数据集的实验表明,提出的 TextFuseNet 性能最先进。具体来说,我们在 ICDAR2013 上实现了 94.3% 的 F 度量,在 ICDAR2015 上实现了 92.1%,在 Total-Text 上实现了 87.1%,在 CTW-1500 上实现了 86.6%。

引言

  • 场景文本检测在计算机视觉领域引起了越来越多的关注。 随着深度学习的快速发展,取得了许多进展[Wang et al, 2019d][Wang et al, 2017][Qiao et al, 2019][Gao et al, 2019]。 然而,这项任务仍然具有挑战性,因为文本通常有多种形状,文本探测器很容易受到复杂背景、不规则形状和纹理干扰的影响。
  • 主要有两种方法:基于字符的方法和基于方法。将文本视为基于字符的多个字符的组合。他们先用精心设计的字符检测器提取字符,然后组合成单词。然而,基于字符的方法通常非常耗时,因为文本检测生成了大量的候选字符。根据通用对象检测管道直接检测单词而不是基于字符的方法。尽管它们更简单、更有效,但这些方法通常不能有效地检测任何形状的文本。为了解决这个问题,一些基于单词的方法进一步应用于姿态分割进行文本测试。在这些方法中,前景分割掩码有助于确定各种文本形状。尽管取得了令人满意的成绩,但基于实例分割的现有方法仍有两个主要限制。首先,这些方法仅基于单个感兴趣区域(RoI)检测文本,而不考虑全局上下文,因此它们往往会基于有限的视觉信息产生不准确的检测结果。其次,流行的方法不建模不同层次的单词语义,冒着误报文本检测的风险。图 1 一个示例显示了这些方法。 在这里插入图片描述
  • 图 1:基于实例分割的常用方法 (a) 我们提出的 TextFuseNet (b) 结果说明。 绿色多边形代表真阳性,红色多边形代表假阳性。
  • 本文提出了一个新颖的场景文本检测框架,即 TextFuseNet,使用更丰富的融合特征来有效地检测任何形状的文本。一般来说,我们遵循 Mask R-CNN [He et al, 2017] 和 Mask TextSpotter [Lyu et al, 2018] 并将文本检测任务作为实例分割任务。与这些方法不同,我们重建了它们 Mask R-CNN 原管,==分析和整合三个层次的特征,即字符级、单词级和全局级特征,==用于文本检测。特别是,我们首先在检测管道中引入了一个额外的语义分支,以帮助感知和提取整体表达。以后可用于指导管道检测和掩码分支的全局语义特征。接下来,我们试试 Mask R-CNN 在管道检测和掩码分支中提取字符级和单词级特征。与原始的 Mask R-CNN 不同的是,在检测和掩码分支中,我们不仅检测和分割单词实例,还检测和分割单词实例,提供单词级别的表示。感知三级表示后,我们引入多路径特征集成架构,通过多路径集成网络集成字符、单词和整体级别的特征,方便 TextFuseNet学习更具辨别力的表达,产生更准确的文本检测结果。在实践中,考虑到一些现有的数据集缺少字符符号,我们进一步开发了一种弱监督学习方案,通过从单词级注释数据集中学习来生成字符级注释。总体而言,TextFuseNet 的架构如图 2 所示。
  • 图 2.拟议框架的整个过程。 我们提取并使用三个层次的特征,即文本的字符级、单词级和全局级特征。 文本检测还提出了多路径融合架构,以获得更丰富的融合特征。
  • 这项工作有三个贡献: (1) 我们提出了一个新颖的框架,即 TextFuseNet,它提取了字符、单词和整体水平的特征,并引入了多路径融合架构来集成它们,以准确的文本检测; (2) 基于提出的框架,我们引入了一种弱监督学习计划,利用词级注释指导搜索字符训练样本,实现无注释字符实例的有效学习; (3) 我们提出的框架在本的名称基准中,我们提出的框架实现了最先进的性能。

相关工作

方法

  • 在本节中,我们将描述如何通过语义分割、检测和掩码分支提取多级特征,以及如何使用多路径集成架构集成它们。 同时,我们还探索了生成字符级注释的弱监督学习策略。

架构

  • 图 2 描述了 TextFuseNet 整体结构。 在 TextFuseNet 我们首先提取多级特征表示,然后进行多路径集成进行文本检测。 该框架主要由五个组件实现:金字塔网络作为提取多尺度特征图的主要特征(FPN)、区域建议网络用于生成文本建议(RPN)、语义分支用于使用全局语义 ,用于检测单词和字符的检测分支,以及用于实例分割单词和字符的掩码分支。
  • 在 TextFuseNet 我们先遵循 Mask R-CNN 和 Mask TextSpotter,并采用 ResNet 作为 FPN 的主干。另外,我们用 RPN 为后续检测和掩码分支生成文本建议。然后,为了提取多级特征,我们主要建议应用以下实现。首先,我们引入了一个新的语义分支来语义分割输入图像,并帮助获得它全局级特征。然后,在通过预测类别和使用边界框回归来细化文本提案的测试分支中,我们提取并整合单词和整体级别的特征来测试单词和字符。这与现有的方法不同,只专注于为每个建议检测单个单词或字符。对于从检测分支检测到的对象,我们提取并整合所有字符、单词和全球级别的特征,以完成实例分割和最终文本检测任务。详细的网络配置用于提取多级特征表示 3.2 节中介绍。提取多个特征后,我们提出了一个特征多路径融合架构整合不同的特征来检测任何形状的文本。多路径集成架构可以有效地对齐和合并多级特征,以提供鲁棒的文本检测。实现多路径集成架构的细节 3.3 节中描述。

多级特征表示

  • 一般来说,在检测器的检测和掩码分支中很容易获得字符和单词级别的特征。 我们可以通过检测提案中的单词和字符来实现这一点。 此处应用 RoIAlign 来提取不同的特征并对单词和字符进行检测。
  • 然而,在特征提取阶段,我们需要一个新的网络来帮助获得全球特征。 因此,我们建议在检测器中进一步使用语义分支来提取全局特征。 如图 2 语义分支是基于 FPN 输出构建。 我们将所有层次的特征融入统一的表达,并将统一的表达进行分割,从而获得文本检测的全局割结果。 在实践中,我们应用 1×1 卷积来对齐来自不同级别的特征的通道数,并将特征图的大小调整为相同的大小以供以后统一。

多路径融合架构

  • 在我们获得多级特征后,我们在检测和掩码分支中都采用多路径融合。 在检测分支中,基于从 RPN 获得的文本建议,我们提取全局和词级特征用于不同路径中的文本检测。 然后,我们融合这两种类型的特征,以单词和字符的形式进行文本检测。 请注意,我们无法在检测分支中提取和融合字符级特征,因为在执行检测之前尚未识别字符。 在实践中,给定生成的文本提案,我们使用 RoIAlign 从 FPN 的输出特征中提取 7×7 大小内的全局和词级特征。 我们通过逐元素求和来融合这些特征,并将它们输入一个 3×3 卷积层和一个 1×1 层。 最终融合的特征用于分类和边界框回归。
  • 在掩码分支中,对于每个单词级实例,我们可以在多路径融合架构中融合相应的字符级、单词级和全局级特征,以进行姿态分割。 图 3 显示了多路径融合架构的详细说明。 在所提出的架构中,我们从不同的路径中提取多级特征并将它们融合以获得更丰富的特征,以帮助学习更具辨别力的表示。
  • 图 3:掩码分支中的多路径融合架构示意图。 对于一个单词提议,我们在不同的路径中融合字符级、单词级和全局级特征,以获得更丰富的融合特征。
  • 形式上,给定一个用 r i r_i ri​ 表示的输入词,我们首先根据它与一个字符的交集在字符区域上的比率来识别属于该单词建议的字符结果 C i C_i Ci​,这意味着如果单词框完全覆盖字符,则该比率为 1,否则为 0。 我们使用 c j c_j cj​ 来表示字符。 那么属于单词 r i r_i ri​ 的字符集 C i C_i Ci​ 可以根据以下公式收集:
  • 其中 b i b_i bi​ 和 b j b_j bj​ 分别是单词 r i r_i ri​ 和字符实例 c j c_j cj​ 的边界框, T T T 是阈值。 在我们的实现中,我们设置 T = 0.8。
  • 由于字符的数量不是固定的,可能从零到数百,对于给定的检测词 r i r_i ri​,我们将集合 C i C_i Ci​ 中字符的特征融合成一个统一的表示。 特别是,我们首先使用 RoIAlign 为 C i C_i Ci​ 中的每个字符提取大小为 14×14 的对应特征,然后通过元素求和融合这些特征图。 通过一个 3×3 的卷积层和一个 1×1 的卷积层,我们可以得到最终的字符级特征。
  • 通过进一步应用 RoIAlign 来提取词的特征和对应的全局语义特征,我们通过 element-wise summation 融合所有这三个层次的特征,并将它们输入一个 3×3 卷积层和一个 1×1 层以获得更丰富的特征。最终融合的特征用于姿态分割。 请注意,按元素求和后的 3×3 卷积层和 1×1 卷积层用于进一步弥合不同特征之间的语义差距。
  • 。 最后,我们制定了提议的 TextFuseNet 解决文本检测问题的总体目标:
  • 其中 L r p n L_{rpn} Lrpn​、 L s e g L_{seg} Lseg​、 L d e t L_{det} Ldet​和 L m a s k L_{mask} Lmask​分别是RPN、语义分割分支、检测分支和掩码分支的损失函数。

弱监督学习

  • 由于 TextFuseNet 是为检测单词和字符而制定的,因此需要字符级别的注释来实现有效的训练。 但是,如前所述,一些现有数据集不提供字符级注释来训练 TextFuseNet。 我们没有对字符进行注释,这是一项耗时且费力的任务,而是受到弱监督学习的启发,并提出了一种基于弱监督的学习方案来帮助训练 Text FuseNet。 在所提出的方案中,我们通过使用预训练模型从弱监督数据中学习来搜索字符级训练示例。 预训练模型基于我们提出的框架在提供字符级和单词级注释的完全注释数据集上进行训练。 然后,对于一个只有词级注释的数据集 A A A,我们开发的弱监督学习的目标是通过预训练模型 M M M 在 A A A 中搜索字符训练样本。
  • 更具体地说,我们首先将预训练模型 M M M 应用在词级标注数据集 A A A 上。对于数据集 A A A 中的每张图像,我们可以获得一组字符候选样本:
  • 其中 c i c_i ci​、 s i s_i si​、 b i b_i bi​ 和 m i m_i mi​ 分别表示第 i i i 个字符候选样本 r i r_i ri​ 的预测类别、置信度分数、边界框和掩码。 然后我们根据置信度分数阈值和弱监督词级注释过滤 R R R 中的误报样本,得到正字符样本:
  • 其中 C C C 表示要检测的所有字符类别, S S S 表示用于识别正字符样本的置信度分数阈值, ( m i ∩ g i ) / m i (m_i∩g_i)/m_i (mi​∩gi​)/mi​ 表示候选字符样本 r i r_i ri​ 与其词级ground truth g j g_j gj​ 的交集重叠, T T T 是判断候选字符样本是否在词内的阈值。 由于词级标注提供的约束,置信度阈值 S S S可以设置为相对较低,这也有利于保持字符样本的多样性。 在我们的实现中, S S S 和 T T T 分别设置为 0.1 和 0.8。 最后,识别出的正字符样本可以用作字符级注释,并与单词级注释相结合,训练出更鲁棒和准确的文本检测模型。

实验

  • 在本节中,我们在四个具有挑战性的公共基准数据集上评估 TextFuseNet 的性能:ICDAR 2013、ICDAR 2015、Total-Text 和 CTW-1500,并与之前的最先进方法进行比较。

数据集

  • 是一个综合生成的数据集,通常用于预训练文本检测模型。 该数据集由 800,000 张图像和 800 万个合成词组成,具有旋转矩形形式的词级和字符级注释。
  • 是一个典型的横向文本数据集,是在 ICDAR 2013 Robust Reading Competition 的 Challenge 2 中提出的。 它包含 229 个训练图像和 233 个测试图像。 ICDAR 2013 还提供字符级和单词级注释。
  • 是一个多方向文本数据集,是在 ICDAR 2015 鲁棒阅读竞赛的挑战 4 中提出的。 它侧重于附带的场景文本,包含 1000 张训练图像和 500 张测试图像。 该数据集仅提供用四边形标记的单词级注释。
  • 是一个用于场景文本阅读的综合任意形状文本数据集。 Total-Text 包含 1255 个训练图像和 300 个测试图像。 所有图像都用单词级别的多边形注释。
  • 还专注于任意形状的文本阅读,包含 1000 个训练图像和 500 个测试图像。 与 Total-Text 不同的是,CTW-1500 中的注释在文本行级别与多边形标记。

实施细节

  • 我们基于 Maskrcnn 基准实现了我们的框架,所有实验均在配备 NVidia Tesla V100 (16G) 的高性能服务器上进行。该模型使用 4 个 GPU 进行训练,并使用 1 GPU 进行评估。
  • 。整个训练过程分为三个阶段:在 SynthText 上进行预训练,在弱监督下搜索字符训练样本,以及对真实世界数据进行微调。由于 SynthText 提供了单词和字符级别的注释,我们可以获得一个完全监督的预训练模型。在预训练之后,对于弱监督学习,我们在 ICDAR 2015、Total-Text 和 CTW-1500 上应用预训练模型来搜索其对应词级注释的字符训练样本。然后将识别出的字符样本与其原始单词级注释相结合,以在新数据集上微调预训练模型。为了更好地分析所提出的 TextFuseNet 的能力,我们采用具有两个不同深度 {50, 101} 的 ResNet 作为每个数据集的主干。此外,为了增强网络的鲁棒性,应用了多尺度训练、随机旋转和随机颜色调整等数据增强策略。
  • 采用随机梯度下降(SGD)来优化我们的框架。 权重衰减设置为 0.0001,momentum 设置为 0.9,batch size 设置为 8。在预训练阶段,我们在 SynthText 上训练模型 20 个 epoch。 前 10 个 epoch 的学习率设置为 0.01,最后 10 个 epoch 除以 10。 在微调阶段,每个数据集的训练迭代设置为 20K。 在前 10K 次迭代中,学习率设置为 0.005,其余部分除以 10。
  • 。 在推理过程中,测试图像的较短边被缩放到 1000,同时保持纵横比不变。 在语义分割分支中提取全局语义特征。 对于 RPN 生成的文本建议,我们选择前 1000 个建议用于检测分支。 根据获得的检测结果,我们采用 Soft NMS 来抑制冗余边界框。 然后根据抑制的检测结果执行实例分割。 我们只保留单词实例的实例分割结果作为最终的文本检测结果。

消融研究

  • 与原始的 Mask R-CNN 相比,我们引入了两个模块来提高我们提出的 TextFuseNet 中文本检测的性能。 第一个模块是进行多级特征表示(MFR)。 另一个是引入多路径特征融合架构(MFA)以获得更丰富的融合特征用于文本检测。 因此,我们对 ICDAR 2015 和 Total-Text 进行了消融研究,以评估 TextFuseNet 中的每个模块如何影响最终性能。 对于 ICDAR 2015 和 Total-Text 的每个数据集,训练了三个模型,不同模型的比较结果如表 1 所示。“”是指使用原始 Mark R-CNN 训练的模型。 “”表示使用多级特征表示使用Mask R-CNN训练的模型,“”是指完全实现TextFuseNet的模型。 本消融研究中使用的主干网络是带有 ResNet-50 的 FPN。
  • 表 1:TextFuseNet 中每个模块的性能贡献。 “MFR”表示多级特征表示,而“MFA”表示多路径融合架构。 “P”、“R”和“F”分别代表 Precision、Recall 和 F-measure。
  • 如表 1 所示,仅多级特征表示就显着提高了准确率和召回率,“MFR”的最终改进在 ICDAR 2015 和 Total-Text 上都超过了 2% 的 F-measure。 此外,“MFR”和“MFA”的组合可以进一步提高性能,在 ICDAR 2015 和 Total-Text 上分别将 F-measure 提高了 4.6% 和 4.3%。 这些结果验证了多级特征表示和多路径特征融合都有助于获得更丰富的融合特征和更有利于文本检测的判别表示。

与最先进方法的比较

  • 。如上所述,CTW-1500 和 Total-Text 专注于任意形状的文本,其中水平、多向和弯曲的文本在大多数图像中同时存在。因此,我们使用这两个数据集来评估 TextFuseNet 在检测任意形状文本方面的有效性。表 2 的最后两列分别列出了 TextFuseNet 与 CTW-1500 和 Total-Text 上的一些先前方法的比较结果。请注意,FPS仅供参考,因为不同的GPU采用不同的方法。如表 2 所示,我们提出的使用单尺度推理的 TextFuseNet 在 CTW-1500 和 Total Text 上均实现了最先进的性能。具体来说,在 CTW-1500 中,以 ResNet-50 为骨干的 TextFuseNet 实现了 85.4% 的 F-measure,比目前最好的高出 1.7%。当主干是 ResNet-101 时,可以获得更引人注目的结果(F 度量:86.6%),比所有其他竞争对手至少高出 2.9%。同样,对于 Total-Text,我们的带有 ResNet-50 的 TextFuseNet 已经实现了最先进的结果,并且其 ResNet-101 版本的性能至少比其他方法高出 2.1%。上述实验结果表明,TextFuseNet 可以在任意形状的文本检测上获得最先进的性能。
  • 表 2:不同数据集的评估结果。 “*”表示多尺度推理。
  • 。 我们还在 ICDAR 2015 上评估了 TextFuseNet 在检测多方向文本方面的有效性。我们的结果以及与以前工作的比较如表 2 的第三列所示。如表 2 所示,具有 ResNet-50 和 ResNet-101 主干的 TextFuseNet 实现了最先进的性能,它们的 F 度量分别为 90.1% 和 92.1%。 与目前最好的版本相比,我们的 ResNet-50 和 ResNet-101 版本分别优于它 2.4% 和 4.4%。 此外,据我们所知,我们提出的框架是 ICDAR 2015 上第一个 F-measure 超过 90.0% 的框架。
  • 。 最后,我们评估了 TextFuseNet 在 ICDAR 2013 上检测水平文本的效果。TextFuseNet 的结果以及与之前工作的比较在表 2 的第二列中给出。具有 ResNet-50 和 ResNet 101 主干的 TextFuseNet 都取得了非常出色的结果,F-measure 分别为 92.2% 和 94.3%, 胜过所有以前的作品。
  • 因此,根据 ICDAR 2013、ICDAR 2015、Total-Text 和 CTW-1500 的这些实验结果,我们提出的 TextFuseNet 实现了最先进的性能。 此外,在速度上,TextFuseNet 也可以以适当的速度进行推理,这与之前的一些方法相比具有一定的优势。 图 4 显示了一些使用 TextFuseNet 的示例。
  • 图 4:TextFuseNet 在不同数据集上的示例结果。 (a) 到 (d) 的样本图像分别选自 ICDAR 2013、ICDAR 2015、Total-Text 和 CWT-1500。

结论

  • 在本文中,我们通过研究三个级别的特征,即字符级、单词级和全局级特征,提出了一种用于任意形状文本检测的新框架 TextFuseNet。 对不同层次的特征进行充分精细的探索,学习到更丰富的融合特征,有利于文本检测。 我们的实验结果表明,TextFuseNet 在检测任意形状的文本方面取得了最先进的性能。

标签: 矩形连接器he006

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台