基于视频空时域SSIM和GGD的率失真优化研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：fengxun1985

【摘要】

：

为了节约存储空间和传输带宽，视频编码已经成为国内外研究的热点之一。同时一系列的视频编解码标准已经被制定出来，包括MPEG-x，H.26x。在这些编码标准中，为了获得比较好的编码效

【作者】

：

胡方振

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2013年期

【关键词】

：

视频编码视频空时域率失真优化广义高斯分布视觉关注度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为了节约存储空间和传输带宽，视频编码已经成为国内外研究的热点之一。同时一系列的视频编解码标准已经被制定出来，包括MPEG-x，H.26x。在这些编码标准中，为了获得比较好的编码效果，引入了很多技术，同时预定义了很多编码模式。所以，视频编解码其实就是选择最优的编码参数从而获得最优的编码效果。而基于率失真优化（Rate Distortion Optimization，RDO）技术则被用来找到最优的编码参数组合，达到码率和失真的平衡，从而获得最优的编码效果。所以，深入研究率失真优化技术对于改善编码效果有很大的作用。　　现有率失真模型已经取得了一些不错的效果，但是一些与反映视频特性及视觉感知的信息并没有引入到模型中，使得现有模型缺乏对视频序列的自适应且与主观感知存在较大差距。考虑到视频中时域信息对人眼视觉感知的影响，本文提出一种同时使用视频时域和空域信息的基于结构相似性的视频质量评价指标(Spatio-temporal video structural similarity index，stVSSIM)，使所建立的率失真模型能够更好的符合主观感知。为了获得具有更好自适应性的模型，本文采用了比Laplacian分布更具灵活性的广义高斯分布(Generalized GaussianDistribution，GGD)，并将反映人眼视觉感知的SSIM作为失真度量方式，建立了基于GGD的率失真模型。为了使所建立的率失真模型在宏块级获得更好的自适应编码，本文将视觉关注度信息用于对拉格朗日乘子(Lagrangian Multiplier，LM)局部调节。　　本文的主要创新点总结如下:　　 (1)针对现有率失真模型中，失真度量方式没有考虑时域信息的问题，提出了一种基于运动和时域信息的率失真优化模型。通过建立基于stVSSIM的码率-失真和失真-QP模型，使拉格朗日乘子可以在保持图像的视觉感知质量基本不变的情况下，大大降低了码率。　　 (2)针对基于stVSSIM的率失真模型未利用帧特征信息进行视频序列的自适应且现有概率分布模型难以灵活描述变换残差分布的问题，提出了基于广义高斯分布的率失真估计模型。在GGD基础上，使用基于频域SSIM的失真预测子建立失真估计模型，同时利用变换残差系数的自信息，通过基于4x4块的码率预测子得到码率估计模型。在所建立的失真和码率估计模型的基础之上可以进行率失真估计或率失真优化。　　 (3)在所建立的基于广义高斯分布的失真和码率估计模型的基础上，推导得到由GGD驱动并且基于变换残差信息对不同视频的不同帧进行自适应，同时考虑了人眼主观感知的拉格朗日乘子。　　 (4)针对现有率失真模型缺少局部宏块自适应的问题，利用人眼对图像不同区域视觉感知不同的事实提出了基于关注度信息的LM宏块级调整策略。基于stVSSIM的拉格朗日乘子是关于QP的函数，在QP固定的情况下，缺乏对不同序列的自适应性。虽然基于GGD到的率失真模型恰好利用帧的特性信息实现了拉格朗日乘子的自适应，但是人眼对一帧的不同宏块的视觉感知是不同的，所以有必要利用关注度信息对上述两个模型中的LM进行宏块级调整。　　

其他文献

内存数据网格数据访问引擎的设计与实现

随着大规模Web应用和极限事务处理需求的不断增长，传统的关系型数据库越来越不能满足人们的需求。因为兼具内存数据库和NoSQL数据库的优点，内存数据网格(In-memory Data Grid)

学位

内存数据网格非关系型数据库数据访问数据持久化

基于WiFI-FM指纹和最小集匹配的室内定位系统的研究

随着无线互联网技术的发展和移动设备的普及，人们对位置的需求越来越强烈。GPS技术解决了室外定位的问题，却很难应用于室内环境。业界一直没有形成普适的定位方案，室内定位问题

学位

室内定位WiFi网络FM信号指纹特征最小集匹配

基于语料自动获取的维汉译文消歧关键问题研究

新疆是一个多民族的聚居地，少数民族尤其是维吾尔族在新疆人口中占有很大的比例。在信息互相交融的今天，各民族之间的文化交流日益频繁，如何借助先进的信息技术完成机器翻译、跨

学位

机器翻译维汉译文消歧语料自动获取词义消歧最大熵法语料库过滤

面向移动计算的用户界面描述语言E-UIDL

自计算机产生至今，用户界面的设计与开发在软件开发的生命周期中占有非常重要的地位，它的发展经历了批处理界面、命令行界面、图形用户界面(GUI)及自然用户界面(NUI)的过程。随

学位

人机交互界面设计软件开发程序语言

云端文件同步与共享服务平台CloudShare设计与实现

云存储作为云计算的一个重要领域，通过把存储作为服务提供给外界使用，使得用户不需要建立自己的数据中心，只需要向存储服务提供商申请存储服务，节约了昂贵的软硬件基础设施的投资

学位

云存储文件同步数据去重可扩展性文件共享

基于分割和部件定位的细分类研究

细分类问题是指对属于同一个基本类别的物体进行分类，例如区分不同类别的鸟。由于背景中很少包含可用于区分细致类别的特征，所以能否精确分割前景物体在细分类中至关重要。同时

学位

细分类形状先验前景分割部件定位

船舶设计工程图无纸档案系统的设计与实现

该文针对701研究所现有的图纸资料人工管理模式与先进的CAD技术的不相适应,提出了工程图无纸档案系统的设想,并从现实情况和将来可能的技术进步出发,拴面地介绍了该系统的设

学位

工程图无纸档案主档案屏蔽技术档案目录结构图档浏览器信息安全

深空骨干网络高效传输机制研究

未来的深空网络可以在多个行星之间进行数据传输。其中最大的挑战是具有长链路传播延时、高链路误码率、不持续链路连接和不对称链路带宽特性的深空骨干网络。大传播延时和高

学位

深空骨干网络拓扑发现路由机制传输控制网络编码

图像的表象编辑和合成技术的研究

图像编辑是图形图像处理领域的重要研究内容，无论是在影视、传媒、文化和艺术等领域，还是在人们的生活中，都有着广泛的应用。其中，有两种使用很广泛的编辑技术，一直在国际上得到热

学位

图像编辑表象编辑图像合成图像克隆交互方式

基于云计算的异构自适应内容分发

互联网存在的最基础意义就是内容分发，即将数字内容从一个节点分发到另一个或多个节点。从2006年亚马逊公司推出“弹性计算云”和2007年苹果公司推出“iPhone”开始，互联网内容

学位

互联网内容分发云计算自适应端用户分组策略

基于视频空时域SSIM和GGD的率失真优化研究

其他学术论文