论文部分内容阅读
为了节约存储空间和传输带宽,视频编码已经成为国内外研究的热点之一。同时一系列的视频编解码标准已经被制定出来,包括MPEG-x,H.26x。在这些编码标准中,为了获得比较好的编码效果,引入了很多技术,同时预定义了很多编码模式。所以,视频编解码其实就是选择最优的编码参数从而获得最优的编码效果。而基于率失真优化(Rate Distortion Optimization,RDO)技术则被用来找到最优的编码参数组合,达到码率和失真的平衡,从而获得最优的编码效果。所以,深入研究率失真优化技术对于改善编码效果有很大的作用。
现有率失真模型已经取得了一些不错的效果,但是一些与反映视频特性及视觉感知的信息并没有引入到模型中,使得现有模型缺乏对视频序列的自适应且与主观感知存在较大差距。考虑到视频中时域信息对人眼视觉感知的影响,本文提出一种同时使用视频时域和空域信息的基于结构相似性的视频质量评价指标(Spatio-temporal video structural similarity index,stVSSIM),使所建立的率失真模型能够更好的符合主观感知。为了获得具有更好自适应性的模型,本文采用了比Laplacian分布更具灵活性的广义高斯分布(Generalized GaussianDistribution,GGD),并将反映人眼视觉感知的SSIM作为失真度量方式,建立了基于GGD的率失真模型。为了使所建立的率失真模型在宏块级获得更好的自适应编码,本文将视觉关注度信息用于对拉格朗日乘子(Lagrangian Multiplier,LM)局部调节。
本文的主要创新点总结如下:
(1)针对现有率失真模型中,失真度量方式没有考虑时域信息的问题,提出了一种基于运动和时域信息的率失真优化模型。通过建立基于stVSSIM的码率-失真和失真-QP模型,使拉格朗日乘子可以在保持图像的视觉感知质量基本不变的情况下,大大降低了码率。
(2)针对基于stVSSIM的率失真模型未利用帧特征信息进行视频序列的自适应且现有概率分布模型难以灵活描述变换残差分布的问题,提出了基于广义高斯分布的率失真估计模型。在GGD基础上,使用基于频域SSIM的失真预测子建立失真估计模型,同时利用变换残差系数的自信息,通过基于4x4块的码率预测子得到码率估计模型。在所建立的失真和码率估计模型的基础之上可以进行率失真估计或率失真优化。
(3)在所建立的基于广义高斯分布的失真和码率估计模型的基础上,推导得到由GGD驱动并且基于变换残差信息对不同视频的不同帧进行自适应,同时考虑了人眼主观感知的拉格朗日乘子。
(4)针对现有率失真模型缺少局部宏块自适应的问题,利用人眼对图像不同区域视觉感知不同的事实提出了基于关注度信息的LM宏块级调整策略。基于stVSSIM的拉格朗日乘子是关于QP的函数,在QP固定的情况下,缺乏对不同序列的自适应性。虽然基于GGD到的率失真模型恰好利用帧的特性信息实现了拉格朗日乘子的自适应,但是人眼对一帧的不同宏块的视觉感知是不同的,所以有必要利用关注度信息对上述两个模型中的LM进行宏块级调整。