多源语音的自动切分与聚类方法研究与实现

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:shanghui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
真实场景中下载、监听、收集到的音频数据属于多源异构数据,具有多变性、复杂性、多层次性等特点,可能来源于宽带、窄带、近场、远场等不同的声学条件,并且包含不同种类的音频,如:音乐、噪声、音乐背景语音等等。音频数据流的时长通常较长,并且含有未知数量的说话人。想要自动获取这类音频数据流的音频类型分布、说话人分布等信息,需要研究性能较高的多源语音的自动切分与聚类方法作为支撑,将输入的音频数据流划分为不同声学类别的语音片段,即多源语音的音频类型切分问题。对检出的有效语音部分进一步切分出不同说话人,并将区分后的说话人语音片段聚类合并,即说话人分割聚类问题。针对多源语音的音频类型切分问题,本文通过数据预处理和规范化标注规整了用于模型训练和测试的多源语音音频数据集,并选取开源语音数据集进行训练集的扩充。通过基于能量阈值的静音检测去除掉静音段后,采用语音、音乐、噪音分类器与语音、音乐背景语音分类器级联的方式,完成音频切分。本文采用K-Means特征提取以缓解语音、音乐背景语音分类器在多源语音域外测试集上鲁棒性差的问题。由于K-means特征与语谱图特征在语音、音乐背景语音分类中表现地各有优劣,提出K-means特征与语谱图特征的特征融合的方法,实现基于特征融合模型的语音、音乐背景语音分类。在测试集上,特征融合模型相比单用语谱图特征训练的模型提升了 4.36的召回率,相比K-Means特征训练的模型提升了 2.53的召回率。针对说话人分割聚类问题,对比了三种深度学习的嵌入特征提取方法,分别为基于全连接神经网络的嵌入特征提取,基于门控循环单元的嵌入特征提取,基于残差神经网络的嵌入特征提取。为解决传统聚类方法无法自动确定聚类簇数的痛点,选用UIS-RNN为聚类模型,并与K-Means聚类、谱聚类等传统聚类方法进行了对比实验。实验表明,基于UIS-RNN的后端聚类方法相比K-Means聚类提高了 6.64的DER(Diarization Error Rate),相比谱聚类提高了 1.6的DER。为实现多源语音的自动切分与聚类,在完成音频切分与说话人分割聚类模块的基础上,本文将多源语音的音频切分作为说话人分割聚类模块的预处理部分,定位到语音片段后,再使用说话人分割聚类模块进行说话人的切分聚类。实验表明,该种结构的多源语音自动切分聚类算法相比单纯使用说话人分割聚类算法在广播语音数据集上的性能提升了 17.11 的 DER。
其他文献
铌镁酸铅-钛酸铅Pb(Mg1/3Nb2/3)O3-PbTiO3(PMN-PT)作为典型的弛豫铁电体,具备众多优良的物理性能。因此,其在众多领域都拥有着宽广且诱人的潜在应用。PMN-PT陶瓷是典型的ABO3型钙钛矿相结构,A位的Pb离子与稀土元素离子半径相似,因此可以掺入稀土元素对PMN-PT陶瓷改性。具有光致伸缩效应的铁电陶瓷,在光的驱动下可以直接将光能转化为机械能,可以有效地促进系统的集成化和微
螺柱是在现代工业生产中互换性极高的一种机械工件。汽车内部零件大都由螺柱连接,一个车身上往往有数百个焊接螺柱。焊接螺柱的位姿决定了车身的装配质量进而影响车的安全使用,因此需要进行焊接螺柱的位姿检测。鉴于目前车身焊接螺柱位姿检测缺乏既快速又精准的方法,本文立足于解决汽车装配过程中焊接螺柱位置检测的难题,搭建了基于深度学习和光度立体视觉的螺柱定位系统,构建了光度立体视觉下的螺柱数据集,利用光度立体算法获
高熵合金是由多种元素以等摩尔比或非等摩尔比组成的固溶体,不但打破了传统合金以一种组元或两种组元为基体的设计思路,而且呈现出高强度、高塑性、高硬度、耐腐蚀、高热稳定性等优异的力学性能。研究发现,面心立方结构高熵合金塑性较高,但是强度不尽人意。如(Fe50Mn30Co10Cr10)97C2Mo1高熵合金经过均质化处理后为FCC单相,塑性约为64%,屈服强度和抗拉强度仅仅为239MPa和574MPa。为
国家发展和改革委员会在“十三五”发展规划中指出,新型结构桥梁尤其是钢-混结构桥梁应该受到重视和发展推广。湿接缝是保证钢-混结构桥梁在纵向和横向受力过程中连续和安全的关键构造。目前传统湿接缝在使用过程中仍存在的诸多问题,例如:湿接缝处钢筋密集导致混凝土浇筑困难;湿接缝空间狭小导致钢筋焊接质量难以保证;新旧混凝土结合面处开裂现象明显;湿接缝中普通钢筋不连续使其传力受到影响。根据以上政策的引导和湿接缝使
棉花中混入的毛发、麻绳、塑料薄膜等异纤严重降低了棉花及棉制品的质量,给企业造成巨大经济损失。为了提高棉花和棉制品的质量,全面且准确地从棉花中检测出异纤至关重要。本研究设计了基于线阵CCD相机的近红外波段扫描成像棉花异纤检测系统,采用传统图像算法和深度学习图像算法开展了异纤目标检测的研究。成功搭建了异纤检测系统,完成了异纤图像的采集、处理,实现了异纤目标的检测识别。研究的具体内容和结果如下:一、根据
色差是评价织物产品质量的重要指标之一,伴随着我国纺织业生产水平的日益提升,在织物批量化生产的过程中对于织物色差的检测往往滞后于生产,造成许多不合格产品的产生。为了提高织物颜色及色差测量的效率和准确性,织物色差在线测量系统的研究具有重要意义。本文基于光电积分测色原理,结合数字传感技术设计了一种织物色差在线测量系统,并通过构建颜色校准矩阵对系统测量数据进行校准,实现了对织物颜色三刺激值及色差的测量。本
目前,西安地区超高层建筑的发展已经成为一个大趋势,对于一个正朝着超高层发展的城市,关于超高层基础设计方面的研究少之又少,为后续相关建筑基础设计带来一定的不便。因此,针对西安地区超高层建筑的基础设计研究非常有必要。考虑到桩基础的承载特性是影响超高层建筑稳定性的主要因素,本文依托西安某超高层建筑工程项目,采用数值模拟与单桩竖向抗压静载试验相结合的方法,分析研究了超高层建筑群桩基础承受竖向和横向荷载的特
随着工业自动化水平的提升、人工智能的发展,机器人广泛应用于军事、地质探测、家庭、医疗等领域,机器人智能化导航在速度、精度、稳定性等使用要求方面也在不断提升。避障作为机器人导航中至关重要的一步,近年来受到很多研究者们的广泛关注,进行了大量基于机器视觉的机器人避障研究。超分辨率生成对抗网络与目标检测网络的融合在遥感图像检测等领域崭露头角,但有关超分辨率重建与目标检测融合的机器人导航避障却未曾报道。因此
脉冲电源是电解加工设备中最为重要的组成部分之一,影响着电解加工的加工精度、表面质量。研制适用于微细电解加工的电源,对于提高电解加工复杂型面的加工精度、减小对国外装备的依赖,都有重要意义。本文旨在开发一种微细电解加工纳秒级双脉冲电源。通过分析国内外的研究现状,发现现有的脉冲电源在去除维持电压、极间电容方面,仅利用脉冲的间歇让其消退,没有在电源结构方面设计专用电路,导致效果不理想。本文在现有脉冲电源结
在日常生活中存在着很多危险源泄露的隐患,时刻对国家和个人的生命财产安全造成威胁,为了快速准确的确定危险源的位置,从而减少其带来的危害,有必要对危险源的定位方法进行深入研究。由于传统的源定位方法存在效率低和灵活度差的缺点,而利用移动机器人则可以有效避免这些缺点。因此本课题使用搭载了光敏传感器的移动机器人作为实验平台,针对实际搜索环境带来的路径规划问题,研究了机器人在未知场景下的源定位方法,为后期危险