论文部分内容阅读
多声道音频技术以其可以呈现高质量和逼真的听觉体验而成为研究热点。与单声道和双声道立体声音频相比,多声道音频利用多通路扬声器的重放技术,更好地呈现了音频情景的空间信息,使听觉体验更加逼真。然而,多声道音频的数据量为单声道音频的数倍,为降低音频信号的存储数据量,需对多声道音频信号进行压缩和编码。特别是,随着信息技术与互联网的发展,多声道音频的网络传输将成为趋势和必然,并逐渐取代单声道和立体声成为网络音频的主要形式。 本文将开展多声道空间音频编码技术的研究,旨在实现有效的多声道音频压缩编码方法,以适应不同网络环境下的音频传输要求。特别是,基于音频对象的多声道信号成为音频领域的研究热点。本文针对现有多声道空间音频对象编码方法中存在的不足,研究面向网络传输的多声道空间音频可升级编码方法。本文的研究内容包括如下几方面: 首先,本文提出一种新的“对象内稀疏性”测度,用以衡量各类音频对象的时频表示与其稀疏逼近信号的帧能量保留比,并利用统计方法分析各类音频对象在不同能量保留比下的听觉感知质量。在此基础上,本文提出一种基于对象内稀疏性的多声道空间音频对象编码方法。在编码时,该方法通过独立提取各声道感知重要的时频系数,将多声道音频下混合为单声道信号加边信息。下混合信号可进一步采用单声道音频编码器压缩编码,同时边信息无损传输。在解码端,根据接收到的边信息恢复各声道的时频系数,从而得到解码音频。客观和主观测试结果表明,与现有多声道音频对象编码方法相比,本文提出的编码方法在相同的码率下解码音频具有更好的听觉感知质量。同时,通过调节下混合信号的编码速率,该方法可实现在不同传输条件下的可升级编码。 第二,本文提出了一种多声道空间音频对象分析合成编码方法。该方法旨在保证各声道音频有很好编码效果的同时,使得各声道的解码质量更均衡。为此,本文引入衡量解码音频质量及各声道均衡的客观度量,并将问题建模为关于时频保留策略的约束优化问题。在求解最佳分配策略时,加入分析合成的闭环结构用以自适应地调整时频保留策略,并通过迭代使目标函数收敛从而求得最优解。实验结果表明,与之前的简化平均分配策略相比,该编码方法处理后的解码音频质量更为均衡,且对不同类型音频对象具有鲁棒性。 第三,本文提出了一种具有多级结构的多声道空间音频对象可升级编码方法。该方法根据时频能量将各声道保留成分划分为多级,用以构成多级码流实现分级传输。同时,为克服边信息无损传输在实际应用中可能出现的误码问题,本文利用压缩感知技术,将保留的时频系数及其来源信息生成多级观测信号,从而避免了边信息的传输。各级观测信号可进一步利用标量量化矢量霍夫曼编码构成多级码流,实现可升级编码以适应不同传输带宽条件。质量评测结果表明,解码音频具有较好的感知质量,且质量随所用级数的增加而提升,即实现可升级编码。