论文部分内容阅读
视频编码优化技术旨在信道带宽约束条件下,通过编码参数的优化组合,降低视频失真,是多媒体领域的核心技术。传统的编码优化方法将视频失真描述为像素的统计误差(如MSE,Mean Square Error),被公认不能很好反映主观感受。基于感知特性的编码优化技术将失真定义为感知失真,在原有的时间冗余、空间冗余、统计冗余之外,引入并挖掘数据的感知冗余,从而降低视频的感知失真,显著提高编码效率。然而,主流编码系统所采用的混合编码框架并非针对感知特性设计,两者之间的融合存在困难。此外,感知特性的可计算模型力求模拟人眼感知机制和过程,建模复杂度高,大大降低了感知编码优化技术的实用性。
为解决上述问题,本文提出一种低复杂度的可计算感知失真模型,利用该模型促进感知理论与混合编码框架融合;进而发展基于混合编码框架的感知编码优化技术,在传统视频编码基础上提高主观质量和编码效率。本文的研究成果具体如下:
1、基于纹理和亮度感知特性的失真模型
失真模型是视频编码理论的基础。对基于感知特性的视频编码优化技术而言,建立符合人眼感知特性的失真模型是研究开展的前提和基础。本文基于人眼对纹理和亮度两方面的感知特性,结合传统数值统计误差方法MSE,提出了一种新的感知失真模型,简称TL模型(Texture and Luminance Based Distortion Model)。该模型有两点重要特性:一是TL模型建立起MSE与感知失真之间的关系模型(又称Perception-MSE模型),有利于借助MSE模型在传统编码理论中的核心地位,将感知理论与混合编码框架融合;二是该模型的理论依据简单明确,既保证了算法的准确性和鲁棒性,又能降低计算复杂度。
2、基于纹理和亮度感知模型的率失真优化算法
率失真优化(Rate Distortion Optimization,RDO)技术在混合编码框架中,对模式选择和运动矢量选择起着重要的指导作用。主流的率失真优化算法在推导过程中,将图像失真描述为MSE或类似的方法,不能很好反映主观感受。这样的方法必然无法从感知角度达到最优化。本文利用TL模型代替MSE描述视频失真,提出了一种基于人眼感知特性的率失真优化算法,简称TL-RDO算法。得益于TL模型与MSE模型之间的联系,TL-RDO算法能够建立在传统的率失真理论之上,与混合编码框架有效结合;同时TL模型的低复杂度使得TL-RDO算法的计算量较小。实验结果表明,与同类算法SSIM-RDO相比,TL-RDO算法的计算复杂度更低;相比传统的QP-RDO算法,在相同的码率下,重建视频质量平均提高约2.6%,某些情况下甚至达到8%。
3、基于纹理和亮度感知模型的量化参数分配算法
视频编码控制技术中的量化参数分配技术对编码效率有着非常重要的影响。现有的编码技术为了减少视频质量波动带来的不良视觉感受,对同一图像帧编码时往往采用相同的量化参数,但该方法仅考虑了视频信号的编码特性,没有考虑其感知特性。本文利用特例分析,指出了固定量化参数编码方法的导致的感知质量不均匀现象,并且现有的MSE模型不能有效反映视觉质量波动。针对该问题,本文以TL模型为评价准则,将TL模型(Perception-MSE模型)与传统编码理论中的量化-失真模型(Quantization-MSE模型)结合,提出了感知失真与量化参数之间的关联模型(Perception-Quantization模型)。通过调整不同区域的编码量化参数,使整体图像质量更均匀,编码资源得到合理分配。实验结果表明,本文算法为编码系统引入的计算复杂度提高仅为0.97%,计算复杂度较低;与传统的固定量化参数方法相比,在相同码率下的重建视频质量平均提高约3.5%,某些情况下甚至达到10%。
4、基于纹理和亮度感知模型的感兴趣区域编码算法
感兴趣区域(ROI,Region of Interest)编码是典型的基于人眼感知特性的编码技术。其目的是在带宽受限条件下,优先保证重点区域的编码质量。现有算法在控制和评价ROI质量增强幅度时往往采用MSE/PSNR方法,不能准确反映主观感受,甚至会出现ROI的PSNR值较高但实际主观质量较差的现象。本文基于TL模型,提出了一种控制不同区域感知质量差异的编码算法,简称QDC算法(Quality Difference Control算法)。该算法借鉴了前文中基于感知的率失真优化和量化参数分配算法的研究成果,对不同区域的编码参数进行调整优化。实验结果表明,本文算法为编码系统引入的计算复杂度提高仅为1.53%,计算复杂度较低。与传统ROI编码算法MBT相比,QDC算法既能始终保证ROI的视觉质量高于其他区域;在带宽变化时也能及时自适应地调整编码参数,有效避免ROI在带宽突然下降时导致的编码质量急剧恶化。