面向自然场景图像中的中文文本定位技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:lmjgood520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景图像中的文本蕴含丰富的信息,因此提取这些信息对自然场景的理解具有重要作用。近年来,自然场景图像中文本的提取有效促进了基于内容的图像检索和视频检索、网络安全、视觉辅助系统、旅游辅助系统等领域的发展。基于当前的文本定位算法还远远没有达到用户的实际需求,并且主要是基于英文文本定位的研究,而中文字符与英文字符的特征存在很大差异。因此,本文主要研究中文文本定位方法,并最终实现了基于判别模型和生成模型的两种定位算法。两种定位算法都主要由四大部分组成:预处理、候选文本区域生成、特征提取以及文本区域分类。(1)预处理及候选文本区域生成。在预处理部分,先提取彩色图像边缘再灰度化,采用改进Niblack算法进行二值化,提取更细致的图像边缘。在候选文本区域生成部分,首先去除长直线和孤立噪点,再进行形态学处理、连通区域分析与合并。实验结果表明,本文算法有效剔除了大部分非文本区域,有效为后续的文本定位和识别节省了大量的时间和计算量。(2)特征提取。本文提出使用PHOG-Gabor4特征来表征中文字符特征,多尺度的PHOG特征用来描述轮廓信息及其空间分布,多方向多尺度的Gabor特征来描述中文字符的结构特征,再通过4种纹理特征对中文字符的描述进行补充。实验结果表明,提出的纹理特征可有效表征中文字符纹理。(3)文本区域分类。第一种定位方法中,本文采用判别模型SVM以及提升树作为分类器。第二种定位方法中,本文提出使用生成模型Labeled-LDA作为文本分类器。实验结果表明,判别模型中提升树分类准确率略优于SVM,而Labeled-LDA进一步提高了判别模型的分类准确率。最后,通过对ICDAR2003竞赛英文定位图像库进行研究与分析,本文建立与之难度相当的中文文本图像库。在此库基础上,对提出的两种中文文本定位算法进行测试,并与其他算法进行比较。基于判别模型提升树的定位准确率为0.83,召回率为0.86,基于Labeled-LDA定位的准确率为0.87,召回率为0.90。实验结果表明,提出的两种定位算法优于文献算法,能够有效定位出自然场景图像中的中文文本区域,尤其是基于生成模型Labeled-LDA的定位算法能够进一步提高中文文本定位的准确性,鲁棒性强。
其他文献
随着互联网技术和数字通信技术的飞速发展,电信网和数字通信网正在互相渗透,相互融合。而传统的TDM电信网络正逐渐暴露出其局限性。单一的话音业务已经无法适应市场需求,有待改
物联网业务平台将原本相互孤立的物联网业务结合起来,提供全面的业务支持和服务,使得各种应用能够共享资源与信息,极大的推动了物联网的发展。对于物联网业务平台,一方面大量的来
音符起始点检测是基于内容的音乐信息检索的重要课题。音符起始点是音乐信号的低级特征,研究音符的起始点对音乐的节奏分析、节拍跟踪、音乐结构分析等有重要的作用。音符起始
D2D通信是在蜂窝网络的控制下进行设备到设备的通信技术,用来满足日益增长的数据速率的需求。该技术允许蜂窝网络中距离相近的用户进行直接通信,而不必经过基站。D2D用户在通信
自从二十世纪七十年代以来,无线网络越来越受到通信业界的重视。无线网络以网络拓扑结构为标准可以分为两类:一类是集中式控制的,即有中心的,典型的如无线局域网。另一类是不带接
随着无线通信技术的迅速发展,出现了无线广域网、无线城域网、无线局域网和无线个域网。其中近年来兴起的UWB技术具有短距离高速无线传输能力,被视为无线个域网中最具竞争力的
近年来,随着网络技术的发展,自组织网络凭借其独特的结构和广泛使用潜力,受到越来越多的关注和研究。 因为自组织网络的特点,在成本和技术上很难在研究过程中搭建真实的网络环
作为现代控制领域中的一个重要分支,混沌系统的控制和同步技术近年来受到了国内外控制界的广泛重视。本文就此领域的相关问题展开系列研究,主要研究了线性输入、非线性输入等
随着3G系统中上行链路业务类型的多样化,CDMA上行多业务调度问题已经引起了研究领域的广泛关注。本论文以cdma2000 1xEV-DV系统为背景,对CDMA上行多业务调度算法进行了研究和仿
本文研究了低压电力线信道特性,探讨了基于正交频分复用(OFDM)的电力线高速数据传输方案并进行了仿真分析。首先,介绍了电力线通信(PLC),测量并分析了电力线信道的噪声和复衰