论文部分内容阅读
在实际场景中,我们同他人或者机器之间的交流总会不可避免地受到其他说话人以及周围噪声的干扰,这使得我们同外界的交流更加困难。为了从被污染的信号中恢复我们想要的信号,盲分离技术被学者们提出来解决这个问题,这里“盲”的意思是混合过程以及源信号信息都是不可获知的。语音盲分离作为盲分离的一种,在很多实际场景中起着重要的作用,其中包括稳健自动语音识别的前端处理,场景分析,视频会议,助听器以及监控。按照混合过程来分,语音盲分离可以分为不考虑回声的模型即线性瞬时混合模型和考虑回声的模型即卷积模型。按照源信号个数和混合信号个数来分,可以分为超定即混合信号个数大于源信号个数、适定即两者个数相等和欠定。超定情况比欠定情况获得的信息更多,因此分离效果更好。但是实际中由于环境和设备的限制,源信号个数很可能大于混合信号个数,因此对于欠定盲分离研究具有重要的意义。本文主要是针对欠定情况下的盲分离从两个模型即欠定线性瞬时混合模型和欠定卷积模型分别讨论和解决:1.针对欠定瞬时混合模型,我们提出了一个基于压缩感知(Compressed Sensing, CS)的无监督分离方法,这个想法的创新之处在于将字典自学习策略和CS恢复融合在一起。所提算法主要包括两步:第一步我们利用一个稳健的方法得到混合矩阵的比较精准的估计;第二步为字典自学习过程,即用分离的信号去训练字典达到更新字典的目的,然后用更新的字典去估计新的分离信号,字典更新和源信号估计两个过程交替进行直至收敛。通过自适应地更新字典,最终得到的字典接近于源信号的最优稀疏基,同时分离性能也在不断提升。本文所提的字典自学习方法没有用到源信号的先验信息,因此它是一个无监督的方法,具有着更广泛的应用。2.针对欠定卷积盲分离模型,我们研究了一个将分频带处理与基于去混响的后处理相结合的分离策略,主要包含三个步骤,即:第一步在子频带内基于每个时频点只有一个信号作用的假设通过聚类对混合矩阵进行估计,然后对估计的混合矩阵进行排列;第二步是假设源信号服从广义拉普拉斯分布,在最大后验概率框架下重建源信号;最后为了进一步提高分离语音的可懂度,我们增加一个基于单通道去混响的后处理来削弱源信号的自身混响成分以及其他干扰成分,同时提高了分离性能。