论文部分内容阅读
让计算机自动理解图像、视频等多媒体文档的内容,并且利用得到的信息去推动更多的应用,已经成为研究的热点。相比颜色、形状、纹理等其它图像信息而言,图像和视频中嵌入的文字通常直接和图像内容相关,如果能够检测、抽取并识别出图像中的文字,便能够为图像和视频的内容理解提供一些关键信息。传统的OCR技术能够有效处理高质量的扫描文档,但是当其面对具有复杂背景的图像和视频时,会遇到很多困难,导致性能下降。因此,需要从理论和技术上提供有效的解决方案。本文对复杂背景下的文字检测、抽取和识别进行了研究。主要内容包括:
⑴分别研究了基于边缘、纹理和颜色的静止图像文字检测方法。在基于边缘的方法中,通过高性能的彩色边缘算子和连通域分析算法来检测文字区域。在基于纹理的方法中,首先利用LBP特征和X2距离来构建相应的最近邻分类器,然后结合金字塔策略对图像进行纹理分割,进而得到检测结果。在基于颜色的方法中,提出了基于自适应SOM的颜色聚类方法,在聚类得到的各个子图中分别进行文字检测。最后提出了融合多种特征的文字检测方法。通过边缘、纹理、连通域和颜色等多种特征的互补,提高了文字检测率。
⑵根据视频文字的特点,提出了由视频文字粗检测、文本块精加工、纹理验证、多帧验证、多帧文字增强、基于连通域的二值化以及文本跟踪等多个模块组成的视频文字检测和抽取系统。在检测环节中,首先采用了边缘密度特征和金字塔策略进行粗检测,通过较弱的规则来保障较高的召回率。随后通过多级验证机制来对误检结果进行排除。在抽取环节中,首先提供了准确的文本极性判断方法,在此基础上通过多帧融合来实现文字增强,并结合连通域的相关信息来提升二值化的效果。最后给出了文字跟踪算法。实验结果表明了该系统的有效性。
⑶针对大类别集上的分类问题,提出了一种新的快速分类策略,能够兼顾识别率和识别速度。整体上,采用多级分类策略,通过引入冗余的分组候选规则,实现了固定的类别分组。对于任何未知样本来说,其候选集就是最邻近的组,而组的个数是有限的,每个组都可以视为一个独立的小类别分类问题。此时,可以对各个组采用更加灵活的分类器设计策略,包括分类器整合和分类器选择等。