论文部分内容阅读
基于深度学习的文本区域检测的目标是从自然场景图像中定位并框取文本区域。图像中包含丰富的信息,文本属于其中的重要信息之一,准确地检测文本区域可以辅助计算机理解图像。获取图像中的文本信息并加以利用已经得到广泛应用,例如,视频、网页、字幕、截图、快递单、票据类、卡证类等对象上文本区域的检测和识别。图像中背景简单、任意方向的线性文本区域的检测已经比较成熟,线性文本区域可以采用四边形进行定位和框取。但背景复杂、非线性文本区域的检测还存在较大的局限性,其一,处于背景复杂的文本区域,难以分离出背景和文本区域,其二,四边形难以准确的框取形状为扇形或者弯曲的文本区域。无论是图像中规则的文本区域还是不规则的文本区域,本质上都需要检测并提取出高质量的文本区域像素点集。针对上述问题,本文进行了如下的改进:1.为了从图像中获取高质量的文本区域像素点集,本文将网络模型分为三个分支,第一分支使用去除全连接层的VGG模型组成全卷积网络(FCN)作为基础网络提取文本区域局部特征。第二分支在模型中补充全局信息,通过加入压缩激活模块(Squeezeand-Excitation Block,SE)学习了通道间关系,将学习的每一个通道上的全局信息补充添加到模型中。第三分支利用全卷积网络中不同尺度的Feature Maps构成特征金字塔,对不同尺度的Feature Map进行特征融合(Feature Fusion,FF),降低模型对于不同大小的文本区域的敏感度。针对模型中高层卷积块提取语义信息的上采样操作造成信息的丢失问题,本文使用三次卷积插值(Cubic Convolution)对Feature Map进行尺寸调整,在特征图合并过程中保证文本信息的完整性。最后对网络模型检测出的点集进行NMS筛选出得分超过阈值的点集作为模型最终的文本区域点集。2.利用模型中获得的像素点集进行自然场景中文本区域的框取,本文提出了基于四边形的线性文本框取算法和基于自适应点集数目(Number of Adaptive Point Sets)的多边形的文本框取方法。首先,计算文本区域内像素点距离文本框中左右边界的长度值,判断该值是否在浮动范围之内,将属于浮动范围内的像素点集坐标值进行加权平均可计算出文本区域的4个角点坐标。其次,任意方向的线性文本区域使用四边形即可较准确的框取出文本区域,针对不规则的文本区域,需要在左右边界的中间添加自适应数目的文本区域边界点,根据文本的弯曲程度,计算所需要的像素点数量,如果弯曲过大需要的点集数目较多,如果弯曲程度较缓,则增加较小的点集。最终,根据整理出的像素点集,依次连线进行文本区域的框取。本文提出FCN+FF+23SE文本检测模型可以应用在任意尺寸大小的图像当中,可以完成线性文本区域、较规则的扇形文本区域和弯曲文本区域的检测,在多个数据集上的精确度、召回率和速度等方面相较于其他模型都有所提升。