论文部分内容阅读
随着电子设备、计算机及网络的迅速发展和人们需求的增高,数字图像和视频数据正以极快的速度产生和传播。图像视频的分辨率、帧率、动态范围等在不断增大。图像视频的类别也越来越丰富,例如照相机及摄像机获取的自然图像及视频,计算机生成的混合图像视频,深度相机获取的深度图像视频等。存储或传输这些图像和视频数据均需要高效的压缩方法来减少数据量并保证好的图像质量。传统的图像视频压缩方案主要通过预测、变换、量化和熵编码来减少数据冗余,从而实现压缩。其中,预测利用了图像及视频的空域和时域的结构相关性,变换利用了图像的低通特性将信号能量集中。然而这些方法对图像的结构特性尚未充分利用。本文分析了图像的结构特性,包括局部结构特性和非局部结构特性,例如混合图像文字图形区域的高频特性,具有稀疏直方图的结构特性,相似模式重复出现的特性等,以及自然图像中内容的重复相似性结构特性,深度图像在物体边界呈现的急剧变化的结构特性。并针对这些结构特性设计了高效的压缩方法,实现了重要的编码性能提高。本文的主要研究内容和成果为:1.针对混合图像的局域结构特性,提出了两种空域编码方法:残差标量量化(Residual Scalar Quantization, RSQ)方法,基颜色索引表(Base Colors and IndexMap, BCIM)方法。文字图形块常呈现复杂的形状并具有多方向性。文字图形区域的预测残差也表现出较强的各向异性。经过变换,信号能量会扩散到中高频带而不易压缩。RSQ模式对预测残差直接进行量化和熵编码,而跳过了变换。从而实现了对残差的更紧凑表达。另外,文字图形块一般由有限的几个颜色值组成。BCIM方法利用这一特性,用几个有代表性的基颜色和一个索引表来简洁地表达整个图像块。我们采用动态规划算法来对基颜色进行选取以最小化重建失真,并用率失真优化来确定最优的基颜色数目。我们将RSQ和BCIM这两种方法分别设计成帧内编码模式,从而能方便地集成到块基的编码框架下。由于有效地利用了文字图形区域的局部结构特性,这两种编码方法在混合图像压缩中实现了甚至高于10dB的编码增益。2.针对混合图像在非局域区域经常拥有相似的文字图形内容这一结构特性,提出了利用一维字典基的Lempel-Ziv-Markov Chain Algorithm (LZMA)压缩方法对混合图像压缩。通过从字典中寻找与编码字符串匹配的内容,并以紧凑的方式对匹配串描述,LZMA有效地利用了相似模式重复出现的图像结构特性来去除冗余。为了对含有噪声或已压缩的混合图像仍获得较高的压缩性能,我们对LZMA方法进行了扩展使其支持有损字典基的压缩。我们将该方法设计成一个帧内编码模式并集成到块基的编码框架中,在混合图像压缩中实现了重要的编码性能提高。3.针对自然图像及视频中存在的非局域结构相似性,提出了信号依赖变换(Signal Dependent Transform,简称SDT)的方法。图像及视频中存在大量的非局域相关性内容,表现在具有相似结构的内容常在非局域区域重复出现。然而,在不增加用于表示这些相似内容位置信息所需比特情况下,如何有效利用非局域相关性来帮助压缩仍然非常困难。为了解决这个问题,我们在非局域区域寻找与编码内容相似的大量图像块,并用这些图像块来训练信号依赖的变换(SDT)。由于编码端和解码端能用相同的方法来推导SDT,该方法成功避免了编码额外的头信息。我们将SDT应用到Key TechnologyArea (KTA)压缩软件中来利用空域和时域的非局域相似性结构特性。在帧内(intra)编码中,该方法较之KTA实现了高达1.4dB的编码增益;在帧间(inter)编码中,实现了高达1dB的编码增益。4.针对Kinect获取的深度和彩色图像视频,考虑到深度和彩色图像对齐的结构特性(对同一场景从相近视角的同步获取),以及深度图像在物体边界常具有急剧变化的结构特性,设计了目标基(object-based)的编码框架来对类似Kinect获取的深度和彩色图像视频进行压缩。该方案对不同的目标平面进行独立编码,避免了对物体边界块做为一个整体进行的编码,因此该编码方法在深度图像视频压缩上实现了重要的编码增益。该方案支持基于目标的编码,即可以只传输感兴趣的目标平面而非整幅图像,这为在保证感兴趣目标重建质量前提下实现位流的减少提供了有效的方法。上述研究工作主要从利用图像视频的结构特性出发来研究提高图像视频编码性能的方法。我们针对混合图像不同于自然图像视频的结构特性设计了空域的压缩算法,从而极大地提高了编码性能。自然图像视频也存在一些尚未有效利用的结构特性。非局域相似性特性就是其中之一。实验结果表明,有效地利用图像视频的结构特性能为编码性能的提升带来新的希望。