论文部分内容阅读
随着数字图像与视频采集设备(例如:数码照相机、数码摄像机、智能手机和平板电脑等)的普及,网络(例如:微博、微信和购物网站等)与人们生活之间关系日益密切,互联网上增图像和视频的数量呈现爆炸式增长。作为一种高级语义信息,图像与视频中的文字由于其自身的优势:(1)与图像或视频的内容高度相关、(2)较其它物体容易提取、(3)其代表的语义信息更容易被计算机理解,越来越受到人们的关注。 为了更加准确、高效地自动获取图像与视频中文字所包含的语义信息,实现基于内容的检索、分类、推荐、过滤等功能,利用计算机对图像与视频中的文本进行自动定位、提取与识别成为近些年研究的热点。基于以上研究背景,本文结合图像处理、模式识别、机器学习等相关领域的技术,对图像与视频中文本的定位和提取进行了深入的研究。相比现有方法,本文所提出的方法在精度、召回率等方面具有明显的优势,并在某些领域得到了实际应用。本文的创新性工作概括如下: (1)提出了一种基于局部梯度相关函数的自然场景文本检测方法。该方法按照由粗到精的策略对图像中的文本进行定位。在粗定位阶段,利用局部梯度相关函数,充分考虑文本区域固有的特性(笔画宽度一致性和笔画颜色一致性),得到文本置信度图,进而通过图像分割、连通部件分类得到文本候选区域。在精定位阶段,通过对文本候选区域的适当扩展、精细分割、文本行分类及分词,得到最终的文本检测结果。在公开数据库上的实验结果表明,本文提出的方法不仅在准确率和召回率方面优于现有方法,而且在文本图像分割中也取得了优异的成绩。 (2)提出了一种基于种子点和半监督分割的自然场景文本提取方法。首先利用局部梯度相关函数对文本区域宁符极性、笔画宽度等信息进行估计,从而自动生成前景和背景的种子点;再利用种子点提供的颜色与位置信息,采用基于二次判别函数(QDF)的方法和基于最小树割(MTC)的方法对图像进行最终分割。实验表明,这两种方法在精度和召回率都优于现有方法的同时,性能上还具有一定的互补性。 (3)提出了一种基于笔画特征的快速视频文本检测与提取的方法。该方法利用视频中字幕区域边缘图像具有高边缘密度、边缘方向多样化、梯度方向相反边缘点成对出现三个特点,快速计算笔画特征,可以实时地对视频中出现的文本进行准确定位。接下来利用一种基于整行打分的方法对检测得到的文本图像进行快速二值化,得到可以用于字符识别的文本二值图像。公开数据库上的实验结果表明,该方法具有准确性和高效性。该方法已成功应用于网络视频内容提取实际应用系统。