图片视频中的文字提取算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ESC_liangzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高科技信息化时代的到来,人工智能技术的开发和应用逐渐成为了研究中的热点问题。图片和视频中的文字包含了大量的语义信息,因此可以被应用到人工智能系统的各个领域,如图片视频内容的检索、理解与分析;车牌识别与智能交通管理;电子地图自动标注与智能导航等等。文字提取技术已是人工智能应用方面不可或缺的一部分,因此也吸引了众多的研究者投身其中。文字提取可以被分为文字检测和文字分割两部分,它是文字识别的前提和基础,具有一定的难度和挑战性。图片和视频中的文字根据其存在形式大致可以分为两类,叠加文字和场景文字。叠加文字一般是指通过合成技术人工添加到图片中的嵌入文字或视频中的叠加字幕,它一般出现在新闻视频、电影电视或娱乐节目中。叠加文字的字体、尺寸、颜色相对规范,检测与分割的难点在于复杂背景的干扰。而场景文字是指自然场景中本身具有的文字,如车牌、路标、广告牌等,这些文字的字体多样、颜色多变、尺寸大小不一,且位置分布随意,易受光照和拍摄角度的影响,提取的难度更大,目前的研究关注度也更高。本文从叠加文字和场景文字两个方面展开研究和讨论,具体的研究内容如下:  第一,提出了一种时空域特征相结合的视频叠加文字提取算法。在以往的研究中,针对视频对象,一般是先以一定频率采样得到视频帧序列,再从图像的角度进行研究,而忽略了视频本身所具有的时间连续性特征。在我们提出的视频文字提取算法中,除了利用文字自身的几何结构特征,角点、边缘、颜色等,还提出了文字时域定位的概念,利用文字的时域不变性,在空域中进一步优化文字检测和文字分割的结果。在时域文字定位的研究中,我们尝试了三种不同的方法,分别是基于边缘梯度方向直方图的方法,基于小波变换的方法和基于类笔画边缘检测算子的方法,其中的类笔画边缘检测算子是我们基于文字笔画轮廓的概念提出的一种有效的文字边缘检测方法。它利用文字笔画结构特征,有效地滤除了复杂背景所产生的噪声边缘,提高叠加文字提取算法的精准度。我们在自己提出的两个叠加文字数据集上分别验证了三种算法的有效性。  第二,提出了基于多尺度自适应局部阈值算子的场景文字检测算法。为了解决场景文字字体尺寸大小不一致,文字明暗亮度不同的情况,我们提出了多尺度自适应局部阈值算子。首先,利用多尺度的滑动检测窗口可以将任意粗细和颜色的文字笔画从背景中分割出来。之后,考虑到可能存在明暗两种亮度的场景文字,我们在两个互补的二值图像上同时提取文字连通分量。最后根据字符的几何结构特征和空间分布特点定位图片中的文字位置。我们在国际上通用的ICDAR2003数据集上对该算法进行对比实验,得到了令人满意的效果并证明了基于多尺度自适应局部阈值算子的场景文字检测算法对于不同尺寸、颜色和任意方向分布的场景文字都是有效的。  第三,提出了边缘与颜色特征相结合的场景文字检测算法。我们将文字的两大主要特征,颜色和边缘,巧妙地结合在一起。首先,利用局部最大差值滤波提取边缘图像,并通过K-means聚类将彩色图像聚类为多个颜色图层。再结合文字的几何特征和边缘图像从聚类结果中筛选出一个或多个可能包含文字的颜色图层,并将筛选结果合并,从中提取文字连通分量。最后,在文字行定位中,我们首次利用了规范图割算法,检测到水平、竖直或任意方向排列的场景文字。在实验部分,我们采用了四个有挑战性的数据集,分别是ICDAR2003数据集、ICDAR2011数据集、MSRA-TD500数据集和Street View Text(SVT)数据集。其中的MSRA-TD500数据集不仅包含了中文,英文两种语言,且文字是任意方向排列的。大量全面的对比实验充分证明了我们的算法可以有效的检测和分割场景文字,并且领先或同步于国际上其他的一流算法。  第四,提出了基于SVM分类器的场景文字检测算法。在尝试了前面两点中提到的基于规则的场景文字检测算法后,我们尝试将机器学习方法与基于规则的算法相结合。首先,在一幅图像中通过滑动窗口提取窗口内子图像块中的局部二值模式(LBP)纹理特征,并利用SVM分类,得到图像中的候选文字区域,这一步骤被我们称为文字提取的预处理部分。实验证明,它可以快速地去除大部分非文字区域,提高算法的时效性。接着,在文字区域内基于启发式规则筛选文字连通分量。最后,利用字符间的空间亲密性和外观相似性定位文字行位置。在实验部分,我们采用ICDAR2003数据集和ICDAR2011数据集验证了算法的有效性。  
其他文献
论文由五章组成,各章内容如下:第一章对编译原理中涉及的一些基本理论概念做了简要综述,并描述了作者将要做的工作.第二章介绍了系统的总体设计.第三章详细地描述运用DELPHI
该文首先分析了MAP-CA芯片的结构特点,介绍了MAP-CA的超常指令字(VLIW)内核、具有直接存储器存取(DMA)模式的流式数据传输器及针对串行编码设计的VLX协处理器的结构特点和使
该文详细介绍了基于特权提升的安全评估模型(a Quantitative Model forSecurity Risk Assessment based on the Prvilege-escalating thcory,SPARM)的结构和评估策略.首先,模
该文首先研究了Parlay API体系结构,并分析了Parlay API的实现方式.Parlay API处在上层应用与底层网络资源之间,其实现分为两部分:一部分称为Parlay客户端,就是应用服务器,由
该文首先对度量和软件度量的一些基本概念进行了介绍,根据软件度量的发展历史说明其成功与失败之处,同时指出了软件度量在软件项目的开发中,特别是在航天型号软件研发中的重
该文系统地分析了数字水印技术的基本原理和方法,提出了两种较为理想的水印算法:基于信息论的小波域水印算法和基于图像内容的水印算法.通过各种常见的图像处理、压缩及各种
随着互联网的发展,计算机木马变得越来越猖獗,在网络安全是如此重要的今天,如何有效的检测和预防计算机木马,逐渐成为网络安全界的热点。传统单一的木马检测方法无论是基于静态文
云计算是近几年来的提出的一种计算模式,是并行计算、网格计算和分布式计算发展的产物。云计算的本质特征就是分布式的计算、存储、用时付费、和高扩展性能,具有伸缩性、可靠
该文先介绍了防火墙的发展状况和所使用的核心技术,然后介绍了该系统所实现的功能.该文所采用的主要技术是底层驱动技术、状态检测技术、连接跟踪技术、协议解析技术以及内容
该文充分调研了国内外远程教育规范/标准体系,认真研究了写作工具应该遵守的规范/标准:学习对象元数据规范/标准、学习对象内容包装规范/标准、学习对象运行环境规范/标准和