论文部分内容阅读
近年来,随着移动网络的普及和手机的大量使用,人们从自然场景获取和分享图片的方式越来越多,从海量的自然场景图片中识别出字符变得越来越重要,智慧城市、工业自动化等都需要实时的识别出场景字符。场景字符识别属于文本识别的范围。在传统的识别方法中,往往需要手动去设计特征,鉴于背景的多样化和随意性,这种传统的算法往往满足不了实际的需求。而深度学习技术的快速发展为自然场景中字符检测与识别带来了新的契机。相比于传统的识别方式,神经网络不但可以通过卷积自动提取图像特征,还可避免传统方式中手工设计特征带来的庞大的工作量,因此,使用神经网络进行自然场景字符识别已经成为当前的主要研究方向。当前的自然场景字符识别算法虽然已经取得了很大的进步,但是还存在以下问题:对小目标的检测的效果不好;很难区分粘连的文本;对于弯曲文本,检测和识别效果一直都不好。针对以上问题,本文做了以下几点创新性的改进工作,具体研究工作如下:1、针对小目标检测效果不好的问题,本文结合了基于像素分割的检测方法和形态学中的腐蚀和膨胀算法,通过腐蚀去除无关小目标,再进行膨胀对真正的小目标区域进行扩张,从而能有效的检测出小目标,在Total-Text数据集上的精确率从81.8%提升到了85.1%。2、针对粘连的文本,本文结合了区域扩展算法和可变形卷积,利用可变形卷积从多角度去提取特征,从而提高粘连文本的检出效率。3、对于弯曲文本的检测和识别,在检测时本文结合了文本区域多点标记和区域扩展算法,对弯曲文本有很好的检出率,在CTW1500数据集上的精确率从80.6%提升到了83.2%。4、在识别时结合了CRNN和Attention机制,提升了文本的识别率。