自然场景图像中的文本检测与识别方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：luijia2006

【摘要】

：

随着可拍照移动智能终端的大范围推广使用和互联网的迅猛发展，人们能够接触到的图像和视频呈现出快速的增长。如果计算机可以自动地理解图像和视频包含的高层次语义信息，就可以

【作者】

：

高嵩

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

自然场景图像文本检测技术文本识别技术特征表示理论

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着可拍照移动智能终端的大范围推广使用和互联网的迅猛发展，人们能够接触到的图像和视频呈现出快速的增长。如果计算机可以自动地理解图像和视频包含的高层次语义信息，就可以凭借其强大的计算能力和存储能力帮助人们更好地管理和使用这些海量的图像和视频。自然场景文字是图像高层语义的一种重要载体，近些年自然场景图像中的文本检测与识别技术越来越引起人们的重视。　　本文结合场景文字的特点，从特征表示的角度出发，对场景文本的检测与识别方法进行了系统的研究，主要工作包括如下内容:　　1.由于场景文字训练样本和测试样本的特征分布差异性，一个场景文本检测器即使训练时已经引入了大量的训练样本，在针对特定图像进行文字检测时仍然无法保证性能。针对上述问题，本文提出了一种基于级联分类器迁移学习的自适应场景文本检测方法。该方法借鉴了迁移学习的思想，从特征的角度出发，认为特征的分类能力与场景类型密切相关，通过在线调节特征在分类判决中的权重自适应地检测特定场景中的文字。具体地讲，我们选择级联Adaboost作为场景文字检测器，提供尽可能多的特征供弱分类器选择，进而根据弱分类器对高置信度测试样本的分类能力，重新调整弱分类器对应的特征在Adaboost判断中的表决权重，从而达到自适应检测场景文字的目的。在国际公开数据集上的实验结果证明了迁移检测的有效性。　　2.为了将场景文字的局部笔画和全局结构信息引入到特征表示中，本文提出了一种基于鉴别性笔画库的场景文本特征表示方法，使用多尺度笔画检测器的局部最大响应值作为特征，克服了以往笔画结构方法的笔画选择尺度单一和笔画鉴别性无法保证的问题。该方法通过对场景单字训练样本的关键点标注来收集笔画训练样本，使用训练好的笔画检测器在笔画正样本出现的位置进行滑动扫描得到局部最大响应值。这样做一方面减少了运算时间，另外一方面突出了笔画的位置特性，加强了特征表示的鉴别能力。特别地，本文通过线性支持向量机权重系数来去除笔画检测器之间的冗余，将最具有区分能力的笔画检测器有选择性地保留下来，在减轻计算负担的同时进一步提升了分类效果。公开数据集上的实验结果证明了本特征表示方法的优越性。　　3.针对笔画结构方法关键点标注负担过重和未充分利用共生笔画高层语义信息的问题，我们在上一章工作的基础上提出了一种基于位置嵌入词典和共生笔画的场景文本识别方法。该方法首先在编码/聚集框架下给出了位置嵌入词典的概念，提出用词典的码本来代表特定的笔画结构，将码本与特定的图像编码区域关联。这样做既可以将场景文字的全局结构信息融入到特征表示中，还可以克服由于场景文字图像过小而无法使用图像金字塔方法引入位置信息的问题，另外还能有效地减少编码时间。紧接着，本文在位置嵌入词典编码向量上训练线性支持向量机，根据支持向量机权重系数选择鉴别性码本。最后，结合深度学习的思想，本文在第一层鉴别性位置嵌入词典编码向量的基础上学习了第二层共生笔画稀疏词典，将多笔画共生的高层语义信息引入到场景文字特征表示中，进一步提升了场景文字的分类性能。实验结果表明本特征方法已经取得了国际领先的识别性能。　　总之，本文从特征表示的角度出发，对场景文本的检测与识别方法分别进行了研究，取得了较好的实验结果，对未来的研究工作有一定的借鉴意义。

其他文献

基于RBF神经网络的知识库系统及其应用

该文首先介绍了知识库的一般性原理.针对传统的知识库处理方法中存在的问题,引入了神经网络的方法,并对采用神经网络方法构建知识库的可行性进行了分析.在神经网络模型的选取

学位

神经网络知识库反向传播算法(BP)径向基函数(RBF)

基于模糊-神经网络的单元机组协调控制系统方法的研究

单元机组协调控制系统设计是火电厂自动控制中的重要课题。本文提出了两种基于模糊、神经网络的单元机组协调控制系统的设计方案：方案1、基于模糊规则调整的单神经元自适

学位

模糊神经网络协调控制

人工神经网络在辨识与控制中的应用研究

该文运用神经网络来解决火力发电生产过程的辨识问题,并在前人工作的基础上,深入研究了神经网络控制的若干问题.第一章概述了人工神经网络的原理和特点,以人工神经网络在辨识

学位

人工神经网络系统辨识自适应控制预测控制内模控制

东方汽轮机厂CIMS中的分供方资信评价系统的实现

本文从软件工程的角度上系统地讨论了东方汽轮机厂的分供方资信评价系统。从该系统在东方汽轮机厂的CIMS工程中的地位和重要性出发，详细讨论了该系统的需求分析、程序设计以及

学位

分布式应用程序、MIDAS、Delphi、数字签名。

交通控制信息系统的网络化研究

该文首先介绍了交通控制信息系统的原理以及系统的发展、现状和趋势,并提出了一个网络化的交通控制信息系统的设计方案.在此基础上,重点阐述了在此系统中的两个关键技术的实

学位

交通控制计算机网络信息系统

多变量时变非线性系统神经元网络控制方法的研究

该文根据此类系统的行为可以在其工作点附近用低阶ARX模型近似的特点, 提出一种系统运行区域的模糊划分方法,利用这种方法,可以通过ARX模型的非线性组合达到对系统非线性行

学位

多变量时变非线性复杂系统递归型人工神经元网络模糊划分运行子域

循环流化床锅炉燃烧控制系统的模糊控制研究

该文针对循环流化床锅炉的特性,应用模糊控制算法的特点,提出了一种新的模糊控制方法.该方法采用两级模糊控制系统,较低一级用于模糊控制,较高一级用于参数的整定及规则的自

学位

循环流化床模糊控制比例因子加权因子

图像识别在彩管生产自动检测中的应用

该文针对显像管防爆带安装质量的自动测量问题,应用光学测距及图像识别原理,研制开发成功"Z点自动检测机",解决了彩虹显示器件股份有限公司74CM纯平彩管生产线防爆工序Z点参

学位

显像管Z点CCD摄像机图像识别可编程控制器触摸屏

基于GIS的配电网管理决策支持系统的若干应用研究

地理信息系统(GIS)是一门新兴的边缘学科,它集计算机科学、地理学、测绘遥感学、环境科学、城市科学、空间科学、信息科学和管理科学为一体.该文进行了以下3个方面的研究工作

学位

地理信息系统配电网管理决策支持系统故障投诉电话故障定位模糊决策理论

基于HiBi光纤环境和多模干涉的温度折射率传感方法研究

学位

自然场景图像中的文本检测与识别方法研究

其他学术论文