论文部分内容阅读
图像和视频中的文本检测与识别是模式识别与计算机视觉研究的前沿热点和难点之一,现有文本检测与识别研究主要针对扫描文档或者分辨率较高理想情况下获取的视觉媒体。近年来,研究者逐步将关注点集中到各类自然场景环境中快速、准确的文本检测与识别。 本文对可视媒体中的文本检测、分类与识别问题进行了系统和深入的研究。考虑到视觉媒体中文本信息的多样性,在文本检测部分,本文首先提出了基于边缘对称性的自然场景图像中的文本检测算法,该算法利用文本边缘笔画内和笔画间对称性的提取文本候选区域,然后配合基于笔画间距离的文本块聚合技术将候选区域聚类,最后利用强约束进行文本和非文本块的验证。针对另一类常见的网页图像中的文本检测问题,本文使用基于RGB通道的颜色聚类算法,结合针对字符区域的纹理与空间对称性分析进行文本检测。在公用数据集(如ICDAR2013数据集等)进行的测试和对比实验表明,本文所给出的方法可以较好地检测出相应图像中的文本信息。 由于所检测的文本既可能是人工叠加的图形文本(Graphics text)、也可能是图像中包含的自然场景文本(Scene text),同时文本可能会以2D或3D方式存在,给文本自动识别带来了困难。本文进一步研究了文本的自动分类方法,从文本块特征值的分布信息和文本骨架在不同边缘提取算法上的完整性角度对人工文本和场景文本进行了分类、从边缘像素的笔画内和笔画间的单向双向对称性角度对2D和3D文本进行了分类。本文通过分类前和分类后的自然场景文本识别准确率的对比实验,验证了上述文本分类工作的必要性。 最后,本文还探索了视频流中的动态文本区域的提取和文本跟踪方法,并开展了相关实验和分析。