【摘 要】
:
随着智能采集设备、移动互联网及云存储平台的广泛应用,语音数据爆炸式增长。由于人工标注成本昂贵,经过人工准确标注的语音数据却较少。如何对海量无标签语音进行说话人聚类(Speaker Clustering)、如何对少量带标签语音进行说话人辨识(Speaker Identification)是目前智能语音处理领域的研究热点。本文探讨基于深度卷积网络的说话人聚类与辨识问题。论文主要工作及贡献如下:(1)提
论文部分内容阅读
随着智能采集设备、移动互联网及云存储平台的广泛应用,语音数据爆炸式增长。由于人工标注成本昂贵,经过人工准确标注的语音数据却较少。如何对海量无标签语音进行说话人聚类(Speaker Clustering)、如何对少量带标签语音进行说话人辨识(Speaker Identification)是目前智能语音处理领域的研究热点。本文探讨基于深度卷积网络的说话人聚类与辨识问题。论文主要工作及贡献如下:(1)提出基于联合优化深度表征学习与类别估计的说话人聚类方法。首先,从语音样本提取梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC),并进一步提取I-vector特征。然后,将I-vector作为深度卷积自编码网络(Deep Convolutional Autoencoder Network,DCAN)的输入特征,在DCAN编码器输出层提取深度表征(Deep Representation)。接着,采用凝聚层次聚类(Agglomerative Hierarchical Clustering,AHC)对深度表征进行聚类,并根据聚类结果确定初始类标签。最后,在DCAN编码器输出层拼接Softmax层进行类别估计。采用深度表征学习和聚类类别估计的联合损失函数,对DCAN参数进行微调。采用归一化互信息(Normalized Mutual Information,NMI)和聚类精度(Clustering Accuracy,CA)作为性能评价指标。采用Aishell-2和Voxceleb1语音数据库进行评测,本文方法获得的NMI分别为92.5%和72.4%,CA分别为84.5%和66.1%,均优于主流方法。(2)提出基于注意力深度可分离卷积网络(Depthwise Separable Convolutional Network with Attention)的小样本说话人辨识方法。网络由深度可分离卷积(Depthwise Separable Convolutional,DSC)模块堆叠而成,用于克服过拟和问题;同时结合通道注意力(Channel Attention,CA)机制,充分利用各通道信息,从而提升网络性能。本文方法在Aishell-2、Voxceleb1和TORGO三个语音数据库上进行评测,获得的准确率分别为94.46%、86.42%和89.24%;获得的F值分别为96.18%、88.74%和90.62%,本文方法优于其它小样本学习方法。综上所述,本文重点探讨联合优化的说话人聚类问题和小样本说话人辨识问题,并提出基于深度卷积网络的说话人聚类方法与说话人辨识方法。本文设计不同对比实验,并与主流方法进行比较分析,验证本文方法的有效性。
其他文献
随着材料加工技术的成熟和发展,冷弯成形钢材由于受力性能良好、构件重量轻等特点,在国内外钢结构和大跨度空间结构领域的应用愈发广泛。然而,截至目前国内外对冷弯成形的钢拱结构的力学性能研究较少,对此类钢拱进行稳定承载力设计时仍沿用梁柱构件相同的残余应力分布模式,与工程设计的实际情况存在差别。因此,本文在现有的国内外研究成果和我国现行的结构规范标准的基础上,对辊弯成形残余应力应变分布和辊弯成形的圆弧钢管拱
随着中国城镇化进程不断推进,城市道路范围不断外扩,城郊公路面临着从公路功能向市政道路功能转变的需求,公路市政化改造势在必行,但目前还没有相应规范指导改造工程实施,这是公路市政化改造工程亟需解决的问题。本文首先明确公路市政化改造工程的涵义,通过对改造工程的车型分布、交通需求和未来趋势进行分析,基于城镇化率和迭代约束对传统交通量预测四阶段法进行优化,进而确定公路市政化改造工程的道路分级和设计速度等几何
金属增材制造,又称3D打印,是一类在航空航天、生物医学和汽车制造等工业领域具有广泛应用价值的先进技术。其独特的逐层建造金属零件的特点,可极大提高设计自由度和制造灵活性,从而实现具有复杂的几何形状零件的快速制造。然而现有合金因其成形过程中容易产生柱状晶粒和周期性裂纹缺陷,使其难于直接应用于增材制造。目前在增材制造过程中引入金属凝固成核剂是解决这些缺陷的一个有效途径。TiC颗粒因其熔点高、弹性模量大、
面对当前社会所面临的严峻能源与环境问题,燃料电池和锂离子电池作为一种清洁且高效的能量转化与存储装置越来越被受到重视,而其中的电解质材料是电池的核心部件,获得性能优异的电解质材料一直是研究者们致力追求的目标。固态电解质材料相比于传统的液态电解质材料因其化学稳定性好、安全性高等优点备受关注,而现有市售的固态电解质材料需要在较为温和的环境中才能实现较好的性能,一定程度上限制了其在电池中的应用。使用无机填
自适应输出调节问题一直都是控制理论领域非常重要的研究课题,其研究目标是设计一个输出反馈控制器,使得闭环系统稳定的同时,系统输出能渐近跟踪上给定参考信号。传统的二次型Lyapunov函数技术可以很好地解决自适应输出调节问题,但无法保证系统的暂态性能。时变障碍Lyapunov函数是一种采用系统输出跟踪误差和时变误差约束函数来构造Lyapunov函数的新技术,可以有效解决输出受限的非线性系统的输出调节问
随着交通事业的发展,道路交通事故形势愈发严峻,对人民的生命财产安全造成了巨大损失。智能网联汽车可以承担部分或全部驾驶任务,提高行车安全性。其中,可行驶区域辨识技术可检测出当前车辆可行驶的道路区域,以确保在道路上安全行驶,是智能网联汽车环境感知的基础性研究工作。因此,研究智能网联汽车的可行驶区域辨识技术,对于提高交通安全有着重要意义。随着人工智能技术的高速发展,其与智能网联汽车深度融合,迅速成为研究
高热导率绝缘高分子材料是解决电子器件体积持续缩小与及时散热之间矛盾的最佳方案。进一步赋予导热高分子基复合材料可循环回收利用功能将有利于降低成本、保护环境及维持其可持续发展。为此,本文采用多聚甲醛(PFA)和含有芳香酰胺特殊结构的4,4’-二氨基苯酰替苯胺(DABA)为原料,通过利用分子链间氢键强相互作用向树脂固化网络中引入局域微观有序结构增大声子传播自由程,合成一类新型本征导热聚六氢三嗪热固性树脂
姜在我国具有悠久的使用历史,是药食同源的代表,其中姜酚(Gingerols,GRs)是其主要的活性成分,具有广泛的生理活性和药理性能。目前关于姜酚的研究主要集中在其生物活性方面,但关于其高效提取、纯化制备和其运送体系构建的研究较少。为了姜酚更好的开发利用,本文采用非热的脉冲电场技术(Pulsed electric field,PEF)对姜酚提取过程进行优化,从而获得更高的收率和更好的提取物质量,并
情绪是人的多种感觉、思想和行为综合产生的心理和生理状态,在人类社交活动中扮演着非常重要的角色。情绪的诱发和识别是情绪研究领域中的一大热点,其在游戏设计、心理治疗、健康监测和心理学研究等领域都有重要的应用和研究价值。虚拟现实场景沉浸感强且维度较高,将其应用于情绪诱发领域获得了广泛的研究与关注。目前,基于虚拟现实场景的情绪诱发和识别研究中存在着以下问题:(1)现有的情绪诱发方法包括视觉刺激、声音、嗅觉
在股票价格模型的研究中,经典的是Black-Scholes期权定价模型,该模型假设股票价格服从几何布朗运动。然而实证研究显示股票价格收益分布具有自相似性、长期记忆性、非平稳增量以及高峰、厚尾等特征。基于双分数布朗运动和分数泊松过程,本文提出了双分数泊松过程。双分数泊松过程与双分数布朗运动有相同的协方差函数,但其分布具有高峰特征,并且双分数泊松过程具有广义自相似性及长期记忆性。本文首先给出了双分数泊