图像与视频中文本检测与提取方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yiwangcom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字图像与视频采集设备(例如:数码照相机、数码摄像机、智能手机和平板电脑等)的普及,网络(例如:微博、微信和购物网站等)与人们生活之间关系日益密切,互联网上增图像和视频的数量呈现爆炸式增长。作为一种高级语义信息,图像与视频中的文字由于其自身的优势:(1)与图像或视频的内容高度相关、(2)较其它物体容易提取、(3)其代表的语义信息更容易被计算机理解,越来越受到人们的关注。  为了更加准确、高效地自动获取图像与视频中文字所包含的语义信息,实现基于内容的检索、分类、推荐、过滤等功能,利用计算机对图像与视频中的文本进行自动定位、提取与识别成为近些年研究的热点。基于以上研究背景,本文结合图像处理、模式识别、机器学习等相关领域的技术,对图像与视频中文本的定位和提取进行了深入的研究。相比现有方法,本文所提出的方法在精度、召回率等方面具有明显的优势,并在某些领域得到了实际应用。本文的创新性工作概括如下:  (1)提出了一种基于局部梯度相关函数的自然场景文本检测方法。该方法按照由粗到精的策略对图像中的文本进行定位。在粗定位阶段,利用局部梯度相关函数,充分考虑文本区域固有的特性(笔画宽度一致性和笔画颜色一致性),得到文本置信度图,进而通过图像分割、连通部件分类得到文本候选区域。在精定位阶段,通过对文本候选区域的适当扩展、精细分割、文本行分类及分词,得到最终的文本检测结果。在公开数据库上的实验结果表明,本文提出的方法不仅在准确率和召回率方面优于现有方法,而且在文本图像分割中也取得了优异的成绩。  (2)提出了一种基于种子点和半监督分割的自然场景文本提取方法。首先利用局部梯度相关函数对文本区域宁符极性、笔画宽度等信息进行估计,从而自动生成前景和背景的种子点;再利用种子点提供的颜色与位置信息,采用基于二次判别函数(QDF)的方法和基于最小树割(MTC)的方法对图像进行最终分割。实验表明,这两种方法在精度和召回率都优于现有方法的同时,性能上还具有一定的互补性。  (3)提出了一种基于笔画特征的快速视频文本检测与提取的方法。该方法利用视频中字幕区域边缘图像具有高边缘密度、边缘方向多样化、梯度方向相反边缘点成对出现三个特点,快速计算笔画特征,可以实时地对视频中出现的文本进行准确定位。接下来利用一种基于整行打分的方法对检测得到的文本图像进行快速二值化,得到可以用于字符识别的文本二值图像。公开数据库上的实验结果表明,该方法具有准确性和高效性。该方法已成功应用于网络视频内容提取实际应用系统。
其他文献
随着互联网技术的快速发展,多样、异构、稀疏、海量的数据呈指数级快速增长。如何有效地表示和深入理解这些大数据已经越来越受到人们的重视,甚至已经成为当前的重要研究课题。
随着移动互联网的迅速扩张,网络购物大大地提升了人们的生活质量。在此背景下,许多电子商务网站提供了产品评价平台,以方便用户分享产品使用经验以及对产品的满意程度作出评价。
随着计算机和网络技术的广泛使用,网络安全防护成为一个研究热点。入侵检测技术是保障网络安全的重要手段,基于人工智能算法的入侵检测方法成为了当前网络安全领域的重要研究课
胶囊内窥镜的出现和发展,为小肠疾病患者提供了有效而低痛苦的检测手段。然而,胶囊内镜同时也有低效、漏检的缺点,甚至存在一定的危险性,因此,现实需要发展胶囊机器人技术,赋予胶囊
随着工业开始朝着大规模、复杂化的方向发展,针对工业生产的过程监控和故障检测成为了工业系统中备受关注的问题之一。如何从大量数据中挖掘出隐藏的有用信息,使其能够服务于
视觉是人类认识和理解世界的首要途径。长久以来,人们都希望能够在人工系统上复刻人类的视觉能力。其中,视觉分类是最受关注,最为核心,也是实现起来最具挑战性的视觉功能之一。同
红外视频深度估计是机器学习、计算机视觉等领域中的热点研究问题之一。近些年来基于几何光学方法、传统机器学习方法和深度学习方法的深度估计研究取得了很大的进步。然而,现
大数据时代,数据的采集方式更为多样化,数据的表征形态更为多元化,因而观察对象往往可以被不同的特征表征,学术界称之为多视角数据。例如,在图像处理问题中,图像可以用反映图像整体
本论文主要研究了自主驾驶安全性,首先通过分析国内外无人车辆自主驾驶发展面临的挑战,提出自主驾驶测评理论和方法对无人驾驶车辆开展测评。其次,结合测评结论有针对性地自主驾
学位