基于视觉感知的立体视频图像质量评价方法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:p2908892
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
立体视频系统是一种面向未来的能够提供立体感和交互功能的视频系统,可广泛应用于数字化医疗、消费娱乐和远程教育等领域。立体图像在立体视频系统中经过采集、编码、传输、解码及显示等环节处理后,受到了来自系统设备、处理算法以及外部环境等因素的影响,不可避免地出现各种各样的视觉失真,从而给人们认识客观世界和解决问题带来了很大的困难。因此,立体图像视觉质量分析和评价是立体视频技术中亟待解决的问题之一。本学位论文将结合人类视觉感知特性,研究立体视频系统中存在的图像质量问题,主要从以下四个方面展开研究:   1)针对目前立体图像质量评价研究领域缺乏公开的、完备的测试立体图像库,本文从图像内容、失真类型、失真程度等方面考虑,设计主观评价实验方案并建立了一个有效的测试立体图像库,从而为研究立体图像视觉质量的影响因素、研究人眼的立体视觉特性、建立立体图像质量客观评价模型等提供重要的实验数据,也为设计和优化立体视频系统中各处理环节提供理论依据。   本文首先分析了立体视频系统中存在的图像质量问题,模拟了立体视频系统中常见的五种失真,从而建立了一个包含了12幅参考立体图像和312幅失真立体图像组成的测试立体图像库。按照主观实验测试标准,本文设计主观质量评价实验方案获得该库中所有失真立体图像对应的主观质量。本文根据该库的主观评价结果分析了立体视频系统中JPEG、JPEG2000以及H.264对称编码方法对立体图像视觉质量的影响,并进一步比较了这三种方法在高、中、低码率下的编码性能。实验结果表明在中高码率下,JPEG对称编码是三者中性能最好的方法,而在低码率下,JPEG2000对称编码性能优于另外两种,该研究结果为立体视频系统中编码方法的选取提供理论依据。此外,本文还针对立体图像可能出现的对称和非对称两种失真形式,从双眼视觉特性角度分析了在不同失真影响下对称与非对称立体图像视觉质量之间存在异同的原因,并提供了一些改善立体图像视觉质量及提高立体视频系统性能的方法。   2)针对基于感兴趣区域立体视频编码中比特分配策略的选择问题,本文提出了一种主观方法来确定在感兴趣与非感兴趣区域之间的最佳比特分配策略,从而确保立体视频在视觉质量不受影响的前提下尽可能地提高了编码效率。   本文首先根据基于感兴趣区域立体视频编码方法的特点,通过主观评价实验定性地分析了图像内容、质量档次、比特分配策略三个因素之间的关系,获得了具有统计意义的基于感兴趣区域编码的立体图像视觉质量规律。进一步设计了两两主观质量对比实验方案,从人眼的立体视觉注意机制角度定量地分析了最佳比特分配策略与图像内容、质量档次之间关系。实验结果表明立体视频感兴趣区域量化参数(Quantization Parameter,QP)取值为22、27、32、37的四种质量档次编码时,对应的最佳比特分配策略下感兴趣与非感兴趣区域之间QP差异值分别大约为9、6、3、3。立体图像中感兴趣与非感兴趣区域量化参数之间的关系能够直接嵌入于基于感兴趣区域立体视频编码算法中,从而为立体视频系统性能优化服务。   3)针对非对称立体视频编码方法中的图像质量评价问题,本文提出了一种符合人眼立体掩蔽效应的立体图像质量客观评价方法。   由于人眼立体掩蔽特性的机理尚未明确,本文首先通过主观实验所得的评价结果定性地分析了立体视频编码中常见的四种失真影响下的非对称立体图像视觉质量特点,从而探寻具有统计意义的立体图像视觉质量与人眼立体掩蔽效应之间的规律。然后,根据图像奇异值表征图像特征具有很强的稳定性符合人眼对细微差异不敏感的特点,采用图像奇异值距离反映立体图像失真程度,采用质量较好视点与较差视点对非对称立体图像整体视觉质量的权重来反映人眼在感知不同失真影响下的非对称立体图像时所表现出来的立体掩蔽效应强弱程度,从而建立了一种适用于非对称立体图像的质量客观评价方法。最后,按照VQEG对客观评价方法的检验标准,本文采用了Pearson线性相关系数、均方根误差值、Spearman等级相关系数值、异常值比率四个性能指标对提出的方法进行评价,所得指标值分别为0.955、3.737、0.906、0.811%。由此可见,本文提出的方法无论在准确性、单调性上,还是在与主观评价结果之间的一致性上都非常好,能够很好地反映人眼立体掩蔽效应。   4)针对现有的立体图像质量客观评价方法性能较差无法满足实际应用需求的问题,本文模拟人类视觉系统处理双眼视觉信息的过程,提出了一种基于双眼融合和双眼抑制的立体图像质量客观评价方法。   人类视觉系统在处理立体图像时,将左右视点图像合成为一幅具有立体感的单视图像,这一特性被称为双眼视觉单视性(Singleness of Binocular Vision)。本文首先根据立体图像中的视觉信息特点以及对应的双眼处理方法,将立体图像对应的单视图像分为三种区域:遮挡区域、双眼融合区域、双眼抑制区域。然后,根据这三个区域视觉信息的特点,采用了三种质量评价方法,将三个评价结果进行加权得到立体图像质量。最后,通过9种图像内容对应的5种失真影响下的失真立体图像对该方法进行9-折交叉验证优化,并与现有的5种典型的立体图像质量客观评价方法从一致性、统计显著性、跨图像内容和跨失真类型、敏感性四个方面进行性能比较。实验结果表明,本文提出的评价方法无论从准确性、单调性、一致性,还是敏感性都优于其它5种评价方法,并且该方法的评价结果不受立体图像内容和失真类型影响,与人眼的主观感知相一致。
其他文献
近年来,在线社会网络迅速发展,成为大量用户沟通交流和分孚信息的重要平台,引起国内外研究者的关注。最初的研究集中在朋友关系,但是朋友关系难以体现信任或者亲密程度。为了
基础线性代数库(BLAS)是一组线性代数核心子程序的集合,主要包括向量与矩阵的基本运算,被广泛应用于科学工程计算领域。在高性能计算领域中被广泛采用的LINPACK性能测试程序中
形式文法是分析知识文档结构并从中抽取知识重要手段,然而,人工总结自然语言处理所需的文法是十分困难的。人们容易想到的方法是从语料中学习文法,但是面向自然语言的文法学
随着软件技术的演进和信息社会的发展,人们对软件需求呈现出多样化、易变性以及综合化的发展趋势。特别是在包含大量异构数据的智能交通信息系统中,包括较多的独立功能模块,
随着物联网相关技术的不断进步,物联网已广泛应用于各个领域,推动社会生产方式、生活方式、人与物的关系发生重大变革。在目前的物联网环境下,数以亿计的传感器设备在工作着,无时
当前支持GPU和GPU集群的编程技术十分落后和低层,程序员广泛使用的并行编程模型MPI、Pthread和CUDA等,被认为是并行编程中的汇编语言。在当前的技术条件下,无论进行单机GPU程
命名实体间语义关系抽取是文本信息抽取中的关键步骤,是语义识别的重要研究方向。随着互联网对人们生活、学习、工作等各个方面的不断加深的影响,从自由文本及互联网网页中抽
根据掌纹线具有多方向性的特点,将多个方向的特征值组成一个向量,以八元数和Clifford代数为工具,给出了掌纹提取的几个新算法。这些算法改进了张大鹏等人采用的按逐个方向提取再
信道编码技术为数字通信系统的可靠传输信息提供了有效的保障,低密度奇偶校验(LDPC)码是现今性能最接近香农限的一种信道编码。本文基于空间咨询委员会(CCSDS)推荐的深空通信
近年来,生化恐怖袭击事件日益增多,生化毒物释放后,会感染大量人群,且会对人体造成重大损害。及时监测出生化恐怖袭击事件,在生化恐怖袭击事件发生后,尽早地识别出毒物,有助于最大限