论文部分内容阅读
随着互联网、智能手机和通信技术的迅速发展,互联网(包括移动互联网)上多媒体数据快速增长。文字作为一种普遍使用的交流工具,经常被人工添加到图像中以传递信息,并在网络(例如:微博、微信和购物网站等)上广泛传播。因此,图像文本内容的识别与理解对于有效地利用网络信息具有重要意义,并受到了学术界和工业界的广泛重视。 图像文本识别系统包含文本检测、版面分割和文本识别。由于网络图像背景复杂、颜色多变、多语言混杂、图文混合并且版面复杂,文本检测和版面分割面临一系列技术挑战。本文结合图像处理、模式识别和概率图模型等相关领域的技术,对网络图像中的合成文本检测与版面分割进行了深入的研究。相比现有方法,本文所提出的方法在精度、召回率等方面具有一定的优势。本文主要研究工作和贡献如下: 提出了一种基于局部对比度分割的网络图像合成文本检测方法,充分利用了网络合成文本图像的特点。该方法首先通过分别检测笔划轮廓与笔划内部区域的策略获取候选文本部件,随后利用文本/非文本部件分类器过滤非文本部件,最后基于启发式的规则连接文本部件获得文本行,并利用文本行验证过滤非文本行。在提取候选文本部件时,该方法首先采用局部对比度阈值分割将图像分成光滑和非光滑区域。光滑区域中包含笔划内部区域,而对非光滑区域进行局部二值化可分离笔划轮廓和背景轮廓。将候选笔划轮廓和候选笔划内部区域予以合并,即获得候选文本部件。在公开数据集上的实验结果表明,本文提出的方法与现有最好的方法具有可比性。 提出了一种基于条件随机场(Conditional Random Field,CRF)的多方向文本行提取方法,采用先将部件聚成行再过滤非文本部件的策略,以避免一开始就误过滤文本部件。在获得候选文本部件后,该方法首先连接部件构建最小生成树(Minimum Spanning Tree,MST),随后采用由粗至精的思路判断MST中每条边连接的部件对属于同一行的权值。在基于CRF分类判断部件的标签后,依据边的权值将部件聚合成行,并采用文本/非文本行分类过滤非文本行。与基于局部对比度分割的文本检测方法相比,在候选部件提取方法不变以及实验数据集相同的情况下,检测结果的提升说明了该方法的有效性。 提出了一种基于背景矩形分析的版面分割方法。绝大多数现有方法仅利用前景或是背景提供的信息,该方法则综合考察前景和背景提供的信息以分割版面。在获得文本检测结果后,该方法对文本行(文本区域)和非文本部件(非文本区域)分别进行分析,并综合获得最终版面分割结果。针对文本行,本文首先提取同一文本行内相邻部件间的背景矩形,随后基于启发式规则和分类器过滤版块内背景矩形,最后合并版块间背景矩形获得分隔符,并利用它们将文本区域分成不同的版块。针对非文本部件,本文先后过滤噪声部件和与文本块有重叠的部件。在ICDAR2009复杂文档版面分割竞赛数据集、ICDAR2011历史书籍以及历史报纸版面分割竞赛数据集三个不同类型的数据集上取得的领先性能证明了该方法的有效性。