基于语音稀疏性的欠定信号盲分离研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lzh8608
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际场景中,我们同他人或者机器之间的交流总会不可避免地受到其他说话人以及周围噪声的干扰,这使得我们同外界的交流更加困难。为了从被污染的信号中恢复我们想要的信号,盲分离技术被学者们提出来解决这个问题,这里“盲”的意思是混合过程以及源信号信息都是不可获知的。语音盲分离作为盲分离的一种,在很多实际场景中起着重要的作用,其中包括稳健自动语音识别的前端处理,场景分析,视频会议,助听器以及监控。按照混合过程来分,语音盲分离可以分为不考虑回声的模型即线性瞬时混合模型和考虑回声的模型即卷积模型。按照源信号个数和混合信号个数来分,可以分为超定即混合信号个数大于源信号个数、适定即两者个数相等和欠定。超定情况比欠定情况获得的信息更多,因此分离效果更好。但是实际中由于环境和设备的限制,源信号个数很可能大于混合信号个数,因此对于欠定盲分离研究具有重要的意义。本文主要是针对欠定情况下的盲分离从两个模型即欠定线性瞬时混合模型和欠定卷积模型分别讨论和解决:1.针对欠定瞬时混合模型,我们提出了一个基于压缩感知(Compressed Sensing, CS)的无监督分离方法,这个想法的创新之处在于将字典自学习策略和CS恢复融合在一起。所提算法主要包括两步:第一步我们利用一个稳健的方法得到混合矩阵的比较精准的估计;第二步为字典自学习过程,即用分离的信号去训练字典达到更新字典的目的,然后用更新的字典去估计新的分离信号,字典更新和源信号估计两个过程交替进行直至收敛。通过自适应地更新字典,最终得到的字典接近于源信号的最优稀疏基,同时分离性能也在不断提升。本文所提的字典自学习方法没有用到源信号的先验信息,因此它是一个无监督的方法,具有着更广泛的应用。2.针对欠定卷积盲分离模型,我们研究了一个将分频带处理与基于去混响的后处理相结合的分离策略,主要包含三个步骤,即:第一步在子频带内基于每个时频点只有一个信号作用的假设通过聚类对混合矩阵进行估计,然后对估计的混合矩阵进行排列;第二步是假设源信号服从广义拉普拉斯分布,在最大后验概率框架下重建源信号;最后为了进一步提高分离语音的可懂度,我们增加一个基于单通道去混响的后处理来削弱源信号的自身混响成分以及其他干扰成分,同时提高了分离性能。
其他文献
非真实感绘制技术是指利用计算机生成不具有照片般真实感,而具有某些手绘或其他艺术风格效果的图像绘制技术。随着计算机运算速度的不断提升和互联网技术的飞速发展,非真实感
当今,随着高清、超高清视频以及3D电影的快速普及,视频应用向着高清晰度、高帧率的方向发展。在有限的传输带宽及存储空间中,对视频信息进行高效压缩成为了关键技术。在新的
LTE (长期演进)系统改进并增强了3G的空口接入技术,提升了数据传输速率和频谱利用率。空闲模式是指用户开机、但没有分配专门的信道资源给用户的状态。引入空闲模式一方面能
低密度奇偶校验(LDPC)码因其能逼近香农极限而成为当下最流行的编码方式之一,其译码算法亦成为研究热点。在LDPC译码中,译码速率和复杂度之间的矛盾始终未得到很好的解决。在
随着计算机软、硬件综合水平和信息技术在近几年的急速发展,数字图像抠取技术被广泛应用于图像处理、视频编辑以及电影特效制作等领域,是计算机视觉方面的重要研究课题。抠图
视频点播服务(VoD)的迅猛发展带来了巨大的带宽开销,在2012年,全球视频流量已经占到了整个互联网流量的57%。随着无线技术的飞速发展,大量3G,4G用户对VoD服务的需求更加加剧了核心
无线移动通信技术已经成为当今通信领域发展最快、市场潜力最大的热点技术。然而,无线频谱资源的紧缺是限制无线移动通信与服务应用持续发展的瓶颈。作为一种智能革命性的频
为应对人们对无线通信爆炸式的增长,多输入多输出技术(MIMO)通过在源节点和目的节点安置多天线进而实现收发端之间的分集和复用增益,有效地提高频谱利用率。但是受移动设备体
立体电影和电视节目受到越来越多的观众的喜爱。但是,目前3D片源稀少,主要由三种制作方式得到:实拍立体、三维图形立体和2D转3D。2D转3D因其较低的制作成本和较好的3D效果受到
在我国,发挥着基础设施功能的铁路系统对国民经济的发展具有重要作用,同时其运行的安全性也随之受到重视。应答器传输模块(Balise Transmission Module,BTM)是列车自动防护(Auto