论文部分内容阅读
自然场景图像中的文本蕴含丰富的信息,因此提取这些信息对自然场景的理解具有重要作用。近年来,自然场景图像中文本的提取有效促进了基于内容的图像检索和视频检索、网络安全、视觉辅助系统、旅游辅助系统等领域的发展。基于当前的文本定位算法还远远没有达到用户的实际需求,并且主要是基于英文文本定位的研究,而中文字符与英文字符的特征存在很大差异。因此,本文主要研究中文文本定位方法,并最终实现了基于判别模型和生成模型的两种定位算法。两种定位算法都主要由四大部分组成:预处理、候选文本区域生成、特征提取以及文本区域分类。(1)预处理及候选文本区域生成。在预处理部分,先提取彩色图像边缘再灰度化,采用改进Niblack算法进行二值化,提取更细致的图像边缘。在候选文本区域生成部分,首先去除长直线和孤立噪点,再进行形态学处理、连通区域分析与合并。实验结果表明,本文算法有效剔除了大部分非文本区域,有效为后续的文本定位和识别节省了大量的时间和计算量。(2)特征提取。本文提出使用PHOG-Gabor4特征来表征中文字符特征,多尺度的PHOG特征用来描述轮廓信息及其空间分布,多方向多尺度的Gabor特征来描述中文字符的结构特征,再通过4种纹理特征对中文字符的描述进行补充。实验结果表明,提出的纹理特征可有效表征中文字符纹理。(3)文本区域分类。第一种定位方法中,本文采用判别模型SVM以及提升树作为分类器。第二种定位方法中,本文提出使用生成模型Labeled-LDA作为文本分类器。实验结果表明,判别模型中提升树分类准确率略优于SVM,而Labeled-LDA进一步提高了判别模型的分类准确率。最后,通过对ICDAR2003竞赛英文定位图像库进行研究与分析,本文建立与之难度相当的中文文本图像库。在此库基础上,对提出的两种中文文本定位算法进行测试,并与其他算法进行比较。基于判别模型提升树的定位准确率为0.83,召回率为0.86,基于Labeled-LDA定位的准确率为0.87,召回率为0.90。实验结果表明,提出的两种定位算法优于文献算法,能够有效定位出自然场景图像中的中文文本区域,尤其是基于生成模型Labeled-LDA的定位算法能够进一步提高中文文本定位的准确性,鲁棒性强。