【论文】ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection

May 8, 2021· · 1 min read

论文题目：ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection

作者：Yuxin Wang, Hongtao Xie, Zhengjun Zha, Mengting Xing, Zilong Fu, Yongdong Zhang

会议/时间：CVPR2020

链接: arXiv

论文目标

目前的图像文本检测算法常常会将一些纹理信息识别为文本，得到假正例，而且图像文本常常具有多种尺度大小和形状，难以识别。在论文中提出了一种模型，通过引入自适应区域建议网络和正交的纹理敏感模块来解决上述问题。前者是一种区域大小无关的RPN网络，使用IoU监督，后者可以从正交的两个方向上检测纹理信息，有效避免假正例。模型检测结果为目标的若干个轮廓点，可以通过进一步后处理得到多边形边界框。

本文方法

模型包括两个部分，前半部分Adaptive-RPN生成文本所在区域，然后使用LOTM进行两个方向的处理得到文本轮廓点。

在Adaptive-RPN中，传统方法是使用生成四个值 $\{\Delta x, \Delta y, \Delta w, \Delta h\}$去优化得到矩形区域，使用$l_1\ Loss$监督。但是这样的方式对于区域的大小比较敏感。

本文中一方面使用$N$个点来表示$RoI$，其中一个点表示区域中心，剩下$N-1$个点表示区域的边框，根据这$N$个点的最边界点得到$RoI$。另一方面使用$IoU\ Loss$来监督这个$N$个点的回归，对尺度不敏感。计算最边界点的方式如下： $$\begin{aligned} Proposal = & \{x_{tl}, y_{tl}, x_{rb}, y_{rb}\} \\ = & \{\min\{x_r\}_{r=1}^n, \min\{y_r\}_{r=1}^n, \\ \ & \ \max\{x_r\}_{r=1}^n, \max\{y_r\}_{r=1}^n\} \end{aligned}$$

在获得文本边界点的时候，使用了相互正交的两个方向上的特征分别得到轮廓点热力图。文中假设对于一个文字在两个方向上都具有明显的特征，但是其他无意义的纹理通常只在一个方向上具有比较明显的特征，因此可以通过两个方向上的分别处理区分开。