论文部分内容阅读
字符识别在现实场景中有着广泛的应用需求和研究意义。身份证的字符识别,银行票据的字符信息提取及录入,无不要求字符识别系统能够快速准确地将图像中的字符信息提取出来。本文以市场交易中常见的票据作为研究对象,探索票据图文识别的研究方法。通过成像设备获取的票据图像往往因为拍摄条件较差容易受到噪声干扰,获取到的图像也容易发生倾斜。首先,本文通过分析噪声的成因,采用去噪算法对图像进行还原操作。其次,为了将图像中冗余的信息去除,选择将图像进行二值化操作,二值化之后的图像从3通道彩色图变成灰度图,降低原始图像通道颜色的信息冗余。现有的目标检测算法在文本平直的情况下才能获得较好的检测结果。为了提高图像信息提取精度,本文对图像进行了倾斜校正。最后本文对票据图像进行版面分析,对票据不同的区域进行了分割研究,以便于对票据的关键信息进行提取。本文在文本检测算法中采用基于YOLO-v3的目标检测算法,在原始的YOLO-v3算法中融入空间注意力模块与通道注意力模块,加入空间注意力机制能使图像主体获得更高的权重,背景等内容将会获得较小的权重。通过加入通道注意力机制赋予各通道不同的权重,使信息量大的通道获得更大权重,更有利于图像文字特征的提取。同时,针对票据的图像特征,文本采用多尺度金字塔图像作为模型的输入,可以将图像的局部特征用简单的形式在不同的尺度上描述,进而提高模型的特征提取能力。本文对原始特征提取网络中的激活函数进行了改进,采用ELU作为激活函数。增加了Darknet-53卷积集合层的层数,由原始的3层卷积增加至4层卷积,提高卷积网络的特征提取能力。为了提高文本检测的速度,对YOLO-v3模型进行剪枝,将模型大小由原来的250M减小至43.9M,大大减少了模型的参数量,提高了检测速度。在文本识别模型中,对原始的长短期记忆网络进行改进,增加输入门到输出门的连接,并且将遗忘门和输入门合并成一个单一的更新门,由原本的长短期记忆网络遗忘门和输入门分别决定哪些信息该遗忘,哪些信息该记忆该保留变为遗忘门和输入门共同进行决策,以使输入状态更好地控制每一内存单元输出的信息。实验表明,本文对长短期记忆网络的改进模型提升了文本检测与识别精度。最后,文本将检测与识别算法流程串联起来,实现了一个票据图文端到端的识别系统。结果表明本文的方法在实际应用中是可行的。