基于感知特性的视频编码优化技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:heroLi1126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频编码优化技术旨在信道带宽约束条件下,通过编码参数的优化组合,降低视频失真,是多媒体领域的核心技术。传统的编码优化方法将视频失真描述为像素的统计误差(如MSE,Mean Square Error),被公认不能很好反映主观感受。基于感知特性的编码优化技术将失真定义为感知失真,在原有的时间冗余、空间冗余、统计冗余之外,引入并挖掘数据的感知冗余,从而降低视频的感知失真,显著提高编码效率。然而,主流编码系统所采用的混合编码框架并非针对感知特性设计,两者之间的融合存在困难。此外,感知特性的可计算模型力求模拟人眼感知机制和过程,建模复杂度高,大大降低了感知编码优化技术的实用性。   为解决上述问题,本文提出一种低复杂度的可计算感知失真模型,利用该模型促进感知理论与混合编码框架融合;进而发展基于混合编码框架的感知编码优化技术,在传统视频编码基础上提高主观质量和编码效率。本文的研究成果具体如下:   1、基于纹理和亮度感知特性的失真模型   失真模型是视频编码理论的基础。对基于感知特性的视频编码优化技术而言,建立符合人眼感知特性的失真模型是研究开展的前提和基础。本文基于人眼对纹理和亮度两方面的感知特性,结合传统数值统计误差方法MSE,提出了一种新的感知失真模型,简称TL模型(Texture and Luminance Based Distortion Model)。该模型有两点重要特性:一是TL模型建立起MSE与感知失真之间的关系模型(又称Perception-MSE模型),有利于借助MSE模型在传统编码理论中的核心地位,将感知理论与混合编码框架融合;二是该模型的理论依据简单明确,既保证了算法的准确性和鲁棒性,又能降低计算复杂度。   2、基于纹理和亮度感知模型的率失真优化算法   率失真优化(Rate Distortion Optimization,RDO)技术在混合编码框架中,对模式选择和运动矢量选择起着重要的指导作用。主流的率失真优化算法在推导过程中,将图像失真描述为MSE或类似的方法,不能很好反映主观感受。这样的方法必然无法从感知角度达到最优化。本文利用TL模型代替MSE描述视频失真,提出了一种基于人眼感知特性的率失真优化算法,简称TL-RDO算法。得益于TL模型与MSE模型之间的联系,TL-RDO算法能够建立在传统的率失真理论之上,与混合编码框架有效结合;同时TL模型的低复杂度使得TL-RDO算法的计算量较小。实验结果表明,与同类算法SSIM-RDO相比,TL-RDO算法的计算复杂度更低;相比传统的QP-RDO算法,在相同的码率下,重建视频质量平均提高约2.6%,某些情况下甚至达到8%。   3、基于纹理和亮度感知模型的量化参数分配算法   视频编码控制技术中的量化参数分配技术对编码效率有着非常重要的影响。现有的编码技术为了减少视频质量波动带来的不良视觉感受,对同一图像帧编码时往往采用相同的量化参数,但该方法仅考虑了视频信号的编码特性,没有考虑其感知特性。本文利用特例分析,指出了固定量化参数编码方法的导致的感知质量不均匀现象,并且现有的MSE模型不能有效反映视觉质量波动。针对该问题,本文以TL模型为评价准则,将TL模型(Perception-MSE模型)与传统编码理论中的量化-失真模型(Quantization-MSE模型)结合,提出了感知失真与量化参数之间的关联模型(Perception-Quantization模型)。通过调整不同区域的编码量化参数,使整体图像质量更均匀,编码资源得到合理分配。实验结果表明,本文算法为编码系统引入的计算复杂度提高仅为0.97%,计算复杂度较低;与传统的固定量化参数方法相比,在相同码率下的重建视频质量平均提高约3.5%,某些情况下甚至达到10%。   4、基于纹理和亮度感知模型的感兴趣区域编码算法   感兴趣区域(ROI,Region of Interest)编码是典型的基于人眼感知特性的编码技术。其目的是在带宽受限条件下,优先保证重点区域的编码质量。现有算法在控制和评价ROI质量增强幅度时往往采用MSE/PSNR方法,不能准确反映主观感受,甚至会出现ROI的PSNR值较高但实际主观质量较差的现象。本文基于TL模型,提出了一种控制不同区域感知质量差异的编码算法,简称QDC算法(Quality Difference Control算法)。该算法借鉴了前文中基于感知的率失真优化和量化参数分配算法的研究成果,对不同区域的编码参数进行调整优化。实验结果表明,本文算法为编码系统引入的计算复杂度提高仅为1.53%,计算复杂度较低。与传统ROI编码算法MBT相比,QDC算法既能始终保证ROI的视觉质量高于其他区域;在带宽变化时也能及时自适应地调整编码参数,有效避免ROI在带宽突然下降时导致的编码质量急剧恶化。
其他文献
近年来,结合了通用处理器的灵活性和专用集成电路的高效性优点的可重构计算技术获得了广泛深入的研究,它具有灵活高效的结构,非常适合多媒体运算和信号处理等计算密集型任务
可计算设备种类的多样化以及数字通讯方式的迅速变革,给面向群组的应用提供了良好的平台。针对如数字会议系统,基于文本的通讯工具,计算机协同工作系统等的群组应用,开发者需要谨
相较于单处理器的执行平台,多处理器的执行平台由于可以提供更强大的处理能力而正在被越来越广泛的应用到各类实时系统中。例如,越来越多的嵌入式系统使用多处理器的平台来执
随着计算机多媒体技术和数字图像处理技术的迅猛发展,人们对数字图像的分辨率要求越来越高。高分辨率图像不但更加清晰,而且包含着更多的细节,而这些细节在许多实际应用中不
随着网络和多媒体技术的发展,各种图像和视频数据呈爆炸式的速度增长。视频语义概念检测是实现从底层特征到语义概念映射的机器学习问题。在视频语义概念检测中,新视频数据的不
三相永磁同步电机由于存在诸多优点,使其在交流伺服控制领域得到极其普遍的应用。在伺服电机驱动负载运行时,电机与负载间的连接装置传动轴往往不是完全刚性的,这就会引发伺服控制系统间的柔性传动,柔性传动必然会产生机械谐振。机械谐振的存在会使伺服控制系统的转速与电磁转矩发生明显且持续的震荡现象,这样就会影响到当前控制系统的控制精度、响应速度等,同时在某种程度上会限制系统频带响应宽度的提升,严重时会致使系统失
用于数字媒体版权保护的数字水印技术得到了学术界的广泛关注。通常来说,水印嵌入过程会给载体媒体带来不可恢复的失真。虽然说这些失真在大多数情况下是非常细微且不可察觉的
数据是实验室的命脉,随着互联网技术的发展,现代实验室对数据管理领域的要求也在不断改变。传统的以人工干涉为主的实验室数据管理模式受到不断的冲击,人们对实验室中产生大量科
视频人体动作识别是计算机视觉一个活跃的研究领域,在基于内容的视频检索和理解、公共场所的智能监控以及高级人机交互等领域具有重要的应用价值。   视频人体动作识别(Hum
随着现代网络通信技术的发展,信息安全问题日益突出。秘密共享是信息安全和数据保密中的重要手段,它在防止重要信息和秘密数据的丢失、毁坏、被恶意修改或被不法分子利用中起着