论文部分内容阅读
作为视觉信息的载体,图像视频数据呈现出高分辨率、高维度的发展趋势,使得人们能够获得更加优质的视觉体验。尤其是近期人工智能的飞速发展,人们对智能化生活的需求日益迫切,以数据驱动的多媒体应用必然造成图像视频数据的爆炸式增长,进而带来巨大的数据存储压力和传输带宽需求,极大阻碍了多媒体应用的发展。为了满足多媒体应用的需求,国际标准组织先后发展了多代图像视频编码标准,不断提升图像视频的压缩效率。然而,随着高清、超高清视频及具有沉浸感的三维视频的普及,视频编码效率仍有待进一步提高。
为了提升编码效率,大多视频编码技术以增加编码复杂度为代价,极大地降低了视频编码器的实用性。另外,现有视频编码工具大都针对传统图像视频数据格式设计,对于数据格式迥异的图像视频往往无法高效压缩。尤其是近年来逐渐兴起的光场图像数据,现有编码工具已无法取得良好的编码性能。最后,为了达到较高的压缩效率,视频压缩大都采用有损压缩的方式,从而造成不可恢复的压缩失真,对以内容分析为主体的多媒体应用造成难以预计的影响。
本文从率失真优化及其应用的角度出发,开展视频编码优化方面的研究工作,主要创新及贡献如下:
1.在视频编码变换过程中,可通过增加变换核数量的方式提升编码效率,但编码时间复杂度也随之增高。为了取得编码性能和编码时间复杂度之间更好的平衡,本文分析了最新发展的帧内预测方法,充分考虑了相邻帧内角度预测模式的夹角较小这一特点,从率失真优化角度阐述了帧内预测模式判决、变换核数量和编码时间复杂度三者的关系,提出了对偶互换机制,使得相邻帧内预测模式采用不同的水平和垂直变换核;根据帧内预测残差分布及变换核选择的统计实验结果设计了帧内预测模式依赖变换核查找表,结合对偶互换机制,提出了相邻帧内预测模式的变换核选择方法。实验结果表明,与视频编码参考软件JEM-7.0相比,虽然最新发展的自适应多核变换方法在亮度和色度分量上可分别取得3.38%、0.69%和0.75%的BD-rate节省,但编码时间增加了78%;本文所提算法在亮度分量和色度分量上可取得2.15%、2.55%和2.60%的BD-rate节省,在4K视频序列上,本文算法在亮度分量和色度分量上最高可取得3.97%、3.75%和4.59%的BD-rate节省,平均编码时间仅增加6%,能够在编码效率和编码时间复杂度之间取得更好的平衡。
2.为了提升光场图像的压缩效率,本文采用基于伪视频序列的光场图像压缩框架,首先将光场图像转化为多幅子视点图像,然后将子视点图像按照一定的视点扫描顺序生成伪视频序列,最后利用现有视频编码器对伪视频序列进行压缩。在基于伪视频序列的光场图像压缩框架下,伪视频序列中编码帧的排序对编码性能起着至关重要的作用。本文充分考虑了编码过程中编码帧之间的时域依赖性,从视差和视点间的质量差异两点因素出发,提出了新的视点扫描方式,使得生成的伪视频序列中相邻帧之间具有更强的相关性。实验结果表明,与之字形排序方式相比,本文所提算法平均可达16.4%的BD-rate节省。为了进一步提升编码性能,将时域依赖率失真优化方法引入到编码过程中,同时提出了I帧的QP调节策略。实验结果表明,与之字形排序方式相比,改进算法平均可达21.8%的BD-rate节省。
3.视频压缩失真会对目标检测性能造成影响,使得编码前后视频的检测结果不一致。本文首先将编码前后视频的检测差异定义为分析失真,然后将分析失真引入到编码的率失真优化过程中,使得在有限带宽限制下压缩失真和分析失真最小。获取分析失真需要反复多次编码并运行目标检测算法,为了避免该过程,本文提出了基于二次编码的优化方法,采用二次编码获得压缩失真,然后构建线性模型利用压缩失真对分析失真进行预测;通过大量统计实验拟合了分析失真和码率之间的函数关系,构建了率失准模型;最终通过求解拉格朗日乘子实现码率、压缩失真和分析失真的联合优化,有效降低了视频编码造成的分析失真。为了进一步降低编码时间复杂度,本文提出了基于一次编码的改进算法,利用时域层级间参考关系对高时域层的压缩失真进行预测,降低了编码时间。实验结果表明,与视频编码标准HEVC(High Efficient Video Coding)相比,本文所提的两种算法最高可降低40%的分析失真。
为了提升编码效率,大多视频编码技术以增加编码复杂度为代价,极大地降低了视频编码器的实用性。另外,现有视频编码工具大都针对传统图像视频数据格式设计,对于数据格式迥异的图像视频往往无法高效压缩。尤其是近年来逐渐兴起的光场图像数据,现有编码工具已无法取得良好的编码性能。最后,为了达到较高的压缩效率,视频压缩大都采用有损压缩的方式,从而造成不可恢复的压缩失真,对以内容分析为主体的多媒体应用造成难以预计的影响。
本文从率失真优化及其应用的角度出发,开展视频编码优化方面的研究工作,主要创新及贡献如下:
1.在视频编码变换过程中,可通过增加变换核数量的方式提升编码效率,但编码时间复杂度也随之增高。为了取得编码性能和编码时间复杂度之间更好的平衡,本文分析了最新发展的帧内预测方法,充分考虑了相邻帧内角度预测模式的夹角较小这一特点,从率失真优化角度阐述了帧内预测模式判决、变换核数量和编码时间复杂度三者的关系,提出了对偶互换机制,使得相邻帧内预测模式采用不同的水平和垂直变换核;根据帧内预测残差分布及变换核选择的统计实验结果设计了帧内预测模式依赖变换核查找表,结合对偶互换机制,提出了相邻帧内预测模式的变换核选择方法。实验结果表明,与视频编码参考软件JEM-7.0相比,虽然最新发展的自适应多核变换方法在亮度和色度分量上可分别取得3.38%、0.69%和0.75%的BD-rate节省,但编码时间增加了78%;本文所提算法在亮度分量和色度分量上可取得2.15%、2.55%和2.60%的BD-rate节省,在4K视频序列上,本文算法在亮度分量和色度分量上最高可取得3.97%、3.75%和4.59%的BD-rate节省,平均编码时间仅增加6%,能够在编码效率和编码时间复杂度之间取得更好的平衡。
2.为了提升光场图像的压缩效率,本文采用基于伪视频序列的光场图像压缩框架,首先将光场图像转化为多幅子视点图像,然后将子视点图像按照一定的视点扫描顺序生成伪视频序列,最后利用现有视频编码器对伪视频序列进行压缩。在基于伪视频序列的光场图像压缩框架下,伪视频序列中编码帧的排序对编码性能起着至关重要的作用。本文充分考虑了编码过程中编码帧之间的时域依赖性,从视差和视点间的质量差异两点因素出发,提出了新的视点扫描方式,使得生成的伪视频序列中相邻帧之间具有更强的相关性。实验结果表明,与之字形排序方式相比,本文所提算法平均可达16.4%的BD-rate节省。为了进一步提升编码性能,将时域依赖率失真优化方法引入到编码过程中,同时提出了I帧的QP调节策略。实验结果表明,与之字形排序方式相比,改进算法平均可达21.8%的BD-rate节省。
3.视频压缩失真会对目标检测性能造成影响,使得编码前后视频的检测结果不一致。本文首先将编码前后视频的检测差异定义为分析失真,然后将分析失真引入到编码的率失真优化过程中,使得在有限带宽限制下压缩失真和分析失真最小。获取分析失真需要反复多次编码并运行目标检测算法,为了避免该过程,本文提出了基于二次编码的优化方法,采用二次编码获得压缩失真,然后构建线性模型利用压缩失真对分析失真进行预测;通过大量统计实验拟合了分析失真和码率之间的函数关系,构建了率失准模型;最终通过求解拉格朗日乘子实现码率、压缩失真和分析失真的联合优化,有效降低了视频编码造成的分析失真。为了进一步降低编码时间复杂度,本文提出了基于一次编码的改进算法,利用时域层级间参考关系对高时域层的压缩失真进行预测,降低了编码时间。实验结果表明,与视频编码标准HEVC(High Efficient Video Coding)相比,本文所提的两种算法最高可降低40%的分析失真。