论文部分内容阅读
随着数码相机、数字摄像机和手机摄像头等数码产品的日益普及,人们获取图像和视频的方式越来越多,图像和视频的数量急剧增长。而个人PC和互联网的快速发展,使得图像和视频成为日常生活中信息交流和传递的重要载体。如何让计算机自动理解并利用图像和视频等多媒体文档的内容,已经成为当前图像处理和多媒体领域研究的热点。相比颜色、纹理、形状等底层图像特征,图像和视频中嵌入的文字通常与图像内容直接相关,如果能检测、抽取并识别出图像中的文字,则能够为图像和视频的内容理解提供重要的线索。传统的字符识别技术能够有效处理高质量的扫描文档,但是当图像中包含复杂背景,文字只占一小部分的情况,便会遇到很多困难,导致性能下降,甚至不能处理。因此,我们需要从理论和技术上提供有效的解决方案。本文针对复杂背景中的文字检测和提取问题展开研究,主要内容包括:
第一,针对复杂背景中的视频文字,本文提出一种基于自适应角点融合的文本检测算法。该方法主要利用图像中的角点来定位和检测文字区域。我们利用灰度变化和边缘分布定义图像复杂度,再依据图像复杂度来进行角点检测和自适应角点融合得到文字候选区域,然后利用边缘投影分析来精确定位文字区域,最后通过SVM分类器对文本进行分类,去除误检区域。通过在视频数据集的实验,表明本文提出的方法具有召回率高,算法速度快的优势。
第二,针对图像或者视频帧中的叠加文字,本文提出一种基于随机森林的文本检测方法。该方法将文字检测分为文本行粗检测和文本行验证两个步骤。在粗检测环节首先利用MVD彩色边缘检测和BST局部二值化方法得到二值边缘图,再利用边缘密度分布去除简单的背景,然后依据文本区域的几何和颜色特性的连通域分析得到文本行的候选区域位置。文本验证在粗检测的基础上,过滤背景噪声,提高检测算法的准确率。我们提出一种基于随机森林分类器的文本行验证算法。已有研究表明随机森林分类器对不均衡样本分类具有较好的泛化能力,正好符合文本行和非文本行样本的特点,我们提出用随机森林融合不同物理意义的特征进一步提高分类验证的性能。通过在多个数据集上与其他现有方法的比较,表明了本文提出的文本检测算法的有效性。
第三,针对复杂背景中的文字抽取问题,本文提出一种整合局部信息的文本抽取算法。该方法将文字抽取看作一个噪声过滤的过程。经过观察,我们将文本行中的噪声分为:文字区域噪声和复杂背景噪声。其中文字区域噪声是指文字笔划上的噪声,多为质量退化或者光照不均引起的随机噪声,复杂背景噪声则是由与字符纹理灰度相似的背景造成的。我们利用边缘增强,结合局部灰度和空域信息进行二值化,去除文字区域噪声,并尽量分离背景和噪声,然后再利用基于文字特性的连通域分析,去除复杂背景噪声。通过在实验图像和真实数据集的算法测试,验证本文提出的文字抽取算法的有效性。