论文部分内容阅读
随着高科技信息化时代的到来,人工智能技术的开发和应用逐渐成为了研究中的热点问题。图片和视频中的文字包含了大量的语义信息,因此可以被应用到人工智能系统的各个领域,如图片视频内容的检索、理解与分析;车牌识别与智能交通管理;电子地图自动标注与智能导航等等。文字提取技术已是人工智能应用方面不可或缺的一部分,因此也吸引了众多的研究者投身其中。文字提取可以被分为文字检测和文字分割两部分,它是文字识别的前提和基础,具有一定的难度和挑战性。图片和视频中的文字根据其存在形式大致可以分为两类,叠加文字和场景文字。叠加文字一般是指通过合成技术人工添加到图片中的嵌入文字或视频中的叠加字幕,它一般出现在新闻视频、电影电视或娱乐节目中。叠加文字的字体、尺寸、颜色相对规范,检测与分割的难点在于复杂背景的干扰。而场景文字是指自然场景中本身具有的文字,如车牌、路标、广告牌等,这些文字的字体多样、颜色多变、尺寸大小不一,且位置分布随意,易受光照和拍摄角度的影响,提取的难度更大,目前的研究关注度也更高。本文从叠加文字和场景文字两个方面展开研究和讨论,具体的研究内容如下: 第一,提出了一种时空域特征相结合的视频叠加文字提取算法。在以往的研究中,针对视频对象,一般是先以一定频率采样得到视频帧序列,再从图像的角度进行研究,而忽略了视频本身所具有的时间连续性特征。在我们提出的视频文字提取算法中,除了利用文字自身的几何结构特征,角点、边缘、颜色等,还提出了文字时域定位的概念,利用文字的时域不变性,在空域中进一步优化文字检测和文字分割的结果。在时域文字定位的研究中,我们尝试了三种不同的方法,分别是基于边缘梯度方向直方图的方法,基于小波变换的方法和基于类笔画边缘检测算子的方法,其中的类笔画边缘检测算子是我们基于文字笔画轮廓的概念提出的一种有效的文字边缘检测方法。它利用文字笔画结构特征,有效地滤除了复杂背景所产生的噪声边缘,提高叠加文字提取算法的精准度。我们在自己提出的两个叠加文字数据集上分别验证了三种算法的有效性。 第二,提出了基于多尺度自适应局部阈值算子的场景文字检测算法。为了解决场景文字字体尺寸大小不一致,文字明暗亮度不同的情况,我们提出了多尺度自适应局部阈值算子。首先,利用多尺度的滑动检测窗口可以将任意粗细和颜色的文字笔画从背景中分割出来。之后,考虑到可能存在明暗两种亮度的场景文字,我们在两个互补的二值图像上同时提取文字连通分量。最后根据字符的几何结构特征和空间分布特点定位图片中的文字位置。我们在国际上通用的ICDAR2003数据集上对该算法进行对比实验,得到了令人满意的效果并证明了基于多尺度自适应局部阈值算子的场景文字检测算法对于不同尺寸、颜色和任意方向分布的场景文字都是有效的。 第三,提出了边缘与颜色特征相结合的场景文字检测算法。我们将文字的两大主要特征,颜色和边缘,巧妙地结合在一起。首先,利用局部最大差值滤波提取边缘图像,并通过K-means聚类将彩色图像聚类为多个颜色图层。再结合文字的几何特征和边缘图像从聚类结果中筛选出一个或多个可能包含文字的颜色图层,并将筛选结果合并,从中提取文字连通分量。最后,在文字行定位中,我们首次利用了规范图割算法,检测到水平、竖直或任意方向排列的场景文字。在实验部分,我们采用了四个有挑战性的数据集,分别是ICDAR2003数据集、ICDAR2011数据集、MSRA-TD500数据集和Street View Text(SVT)数据集。其中的MSRA-TD500数据集不仅包含了中文,英文两种语言,且文字是任意方向排列的。大量全面的对比实验充分证明了我们的算法可以有效的检测和分割场景文字,并且领先或同步于国际上其他的一流算法。 第四,提出了基于SVM分类器的场景文字检测算法。在尝试了前面两点中提到的基于规则的场景文字检测算法后,我们尝试将机器学习方法与基于规则的算法相结合。首先,在一幅图像中通过滑动窗口提取窗口内子图像块中的局部二值模式(LBP)纹理特征,并利用SVM分类,得到图像中的候选文字区域,这一步骤被我们称为文字提取的预处理部分。实验证明,它可以快速地去除大部分非文字区域,提高算法的时效性。接着,在文字区域内基于启发式规则筛选文字连通分量。最后,利用字符间的空间亲密性和外观相似性定位文字行位置。在实验部分,我们采用ICDAR2003数据集和ICDAR2011数据集验证了算法的有效性。