Video OCR研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:ntsx888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和互联网技术的高速发展,视频逐渐成为了人们获取和传递信息的一种重要媒介。视频中的文字是一种高级语义信息,能够为视频索引与检索提供十分重要的辅助信息。如果能将其视频中的文字准确定位并识别出来,识别结果可用于基于内容的视频存储、标记与检索。本文致力于Video OCR研究,其主要目的是提取出视频中的文本信息,具体包括:视频文本定位、视频文本跟踪、视频文本分割与识别。本文的主要贡献如下:   1)本文建立了四个用于视频文本识别研究的数据库:CASIA—TRAIN、CASIA-IMAGE、CASIA-TEXT和CASIA—VIDEO,并分别对其进行了标注,这四个数据库分别用于文本纹理分类器训练、视频文本定位、视频文本分割以及视频文本识别研究,本文同时给出了其对应的评测准则。   2)本文提出了一种视频文本背景复杂度的度量准则,并给出了其近似计算方法,基于该准则,本文提出了一种基于背景分类的文本定位方法,其主旨是对背景复杂程度不同的视频文本采用分而治之的策略,分别采用不同的定位方法。实验证明,本文所提出的方法对背景复杂度不同的视频文本均能取得不错的定位效果。   3)针对复杂背景,本文提出了一种基于分块策略的纹理特征,用于文本精确定位。首先将文本区域分为8×8块,然后分别对每个子块提取灰度对比度特征(GSC)和边缘方向直方图特征(EOH)。其中,GSC特征主要是用于去除复杂背景的干扰,EOH特征则是用于描述文本的整体纹理特性。与其它特征的对比实验表明,本文所提出的特征具有较强的可分性,可以获得较为精确的文本位置。   4)在视频文本分割阶段,本文提出了一种基于笔画和颜色的文本分割方法。首先通过笔画算子提取出候选的文本区域;其次根据候选文本区域对视频文本的像素进行高斯建模,通过高斯模型对文本图像进行分割;最后,通过局部颜色一致性分析,对非文本噪声进行过滤。实验表明本文方法对非文本噪声有较强的鲁棒性。
其他文献
随着Internet的发展,传输层单宿端到端的通信协议TCP和UDP等在传输性能、容错能力和安全性等方面都受到了极大的挑战。传输层多宿端到端的通信协议如基于SCTP的多路同时传输C
信念修正是主体接受一个新的信念并将其加入到已有的信念集合中,且不会引起不协调的一个过程.在哲学、计算机科学,尤其是数据库和人工智能中,都有信念修正的逻辑形式化,对于信念
Web服务(Web Service)是构造下一代分布式计算平台的基本技术。单个Web服务所能够提供的功能有限,服务组合(Service Composition)通过集成现有的Web服务从而创建新的、高层的
近年来,随着Internet的飞速发展和生活中信息化水平不断提高,数据资源呈爆炸式增长,导致获取目的信息困难,信息的利用率降低,而高维数据日益成为主流,所以在实际的聚类应用中
线程池技术是提升多线程应用程序性能的重要技术,已经广泛地应用在各种网络服务器应用程序、中间件等领域。线程池的研究重心已经从静态线程池转移到动态线程池,然而,如何动态提
项目是指特殊的、将要被完成的有限个任务的集合。它是指在一定时间之内,满足所有目标的多项相关工作的总和。项目管理是指以项目为对象的系统组织管理方式。它通过搭建临时
在软件开发的过程中,需求项如果没有经过深入协商,并且没有在各涉众之间达成一致,会对后期的开发带来不必要的重复工作,导致开发成本上升,甚至项目失败。WinWin协商模型是一
互联网业务呈现出以用户为中心的融合趋势,多数机构已在管理域内实现单点登录和Web业务融合,而跨管理域的业务融合应用较少。流化业务在此背景下被提出,它是在互联网分布式计算
网络的不断发展使得信息安全成为网络应用不可缺少的技术基础,网络信息系统需要保护其真实性、保密性、完整性以及可追究性。公钥密码技术是信息安全的核心技术,它给电子商务的
随着Internet的不断发展,Web数据逐渐成为人们关注的焦点。Web上拥有着大量有价值的数据,其中Web源上的结构化数据就是其中之一。Web源上的结构化数据是指将Web源上的网页数