复杂背景下的文字检测、抽取和识别研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:ashwing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
让计算机自动理解图像、视频等多媒体文档的内容,并且利用得到的信息去推动更多的应用,已经成为研究的热点。相比颜色、形状、纹理等其它图像信息而言,图像和视频中嵌入的文字通常直接和图像内容相关,如果能够检测、抽取并识别出图像中的文字,便能够为图像和视频的内容理解提供一些关键信息。传统的OCR技术能够有效处理高质量的扫描文档,但是当其面对具有复杂背景的图像和视频时,会遇到很多困难,导致性能下降。因此,需要从理论和技术上提供有效的解决方案。本文对复杂背景下的文字检测、抽取和识别进行了研究。主要内容包括:   ⑴分别研究了基于边缘、纹理和颜色的静止图像文字检测方法。在基于边缘的方法中,通过高性能的彩色边缘算子和连通域分析算法来检测文字区域。在基于纹理的方法中,首先利用LBP特征和X2距离来构建相应的最近邻分类器,然后结合金字塔策略对图像进行纹理分割,进而得到检测结果。在基于颜色的方法中,提出了基于自适应SOM的颜色聚类方法,在聚类得到的各个子图中分别进行文字检测。最后提出了融合多种特征的文字检测方法。通过边缘、纹理、连通域和颜色等多种特征的互补,提高了文字检测率。   ⑵根据视频文字的特点,提出了由视频文字粗检测、文本块精加工、纹理验证、多帧验证、多帧文字增强、基于连通域的二值化以及文本跟踪等多个模块组成的视频文字检测和抽取系统。在检测环节中,首先采用了边缘密度特征和金字塔策略进行粗检测,通过较弱的规则来保障较高的召回率。随后通过多级验证机制来对误检结果进行排除。在抽取环节中,首先提供了准确的文本极性判断方法,在此基础上通过多帧融合来实现文字增强,并结合连通域的相关信息来提升二值化的效果。最后给出了文字跟踪算法。实验结果表明了该系统的有效性。   ⑶针对大类别集上的分类问题,提出了一种新的快速分类策略,能够兼顾识别率和识别速度。整体上,采用多级分类策略,通过引入冗余的分组候选规则,实现了固定的类别分组。对于任何未知样本来说,其候选集就是最邻近的组,而组的个数是有限的,每个组都可以视为一个独立的小类别分类问题。此时,可以对各个组采用更加灵活的分类器设计策略,包括分类器整合和分类器选择等。
其他文献
随着人们对高性能电力传动技术的迫切需求和各种电力电子技术的迅速发展,PWM整流技术越来越受到人们的关注并得到广泛应用。三相电压型PWM整流器作为近年来人们研究的热点,具有输出功率因数高、输出直流电压稳定、动态性能良好等特点,且能够实现能量双向流动,解决了传统不可控或相控整流装置所带来的谐波污染问题。本文首先分析了三相电压型PWM整流器的基本原理、拓扑结构、数学模型、控制策略,详细研究了电压定向矢量
料位检测技术在现代化工业过程控制中占有重要地位,传感装置是自动化系统得以实现的关键,但从现场应用情况看,除少数传感器应用较好外,多数传感器的性能不稳定、可靠性、灵敏度都
随着经济的快速发展,汽车成为城市主要的交通工具之一,而导航是目前汽车必备的装置之一。如何更加可靠、准确和实时的为用户提供便捷的导航信息,是自动控制技术、现代通信技
宽基线立体图像匹配是计算机视觉领域的一个重要研究方向,在三维重建、目标识别以及遥感图像处理等领域都有着重要的研究和应用价值。到目前为止,尽管国内外的科研人员在该方向
随着智能建筑的快速发展,采用LonWorks技术的暖通空调控制系统也越来越普遍,房间温度控制的性能优劣也备受关注。本文从空调房间温度模型入手,搭建一个LonWorks平台来仿真控制器
贝叶斯框架下的机器学习方法可以考虑在模型中包含先验知识,避免过拟合问题,同时还为模型选择提供了一套完整的理论,交分贝叶斯逼近为估计模型和参数的后验概率提供了一种有效的
学位
本文利用朗读语科库ASCCD,深入分析了汉语普通话韵律特征的声学表现,提出了针对普通话的韵律边界、重音的自动检测模型。用实验研究方法实现了从普通的语音到带有韵律结构特征
进入21世纪,我国人口老龄化现象日趋严重,随着老年人生理机能的下降,心血管疾病以及意外跌倒等情况对他们的生活构成了极大的威胁。针对以上情况,本文重点研究了心电信号的提
提升算法以其通用性和灵活性及高效的实现方法,成为目前小波领域研究的热点问题。图像信息是人们认识世界的主要信息来源,如何用较少的数据来表示图像信号,是许多研究领域需