论文部分内容阅读
语音识别技术发展迅速,并已得到广泛应用。语音识别的性能远非完美,不能做到100%准确。说话置信度估计对进入到语音识别器的语音信号进行判断,排除未在词表中定义的词和无意义的声音,有效的降低系统的误识别率。说话置信度估计对关键词系统和口语对话系统特别重要。论文中的方法不仅适用于英语的语音识别系统,对中文系统也同样有效。
本文主要研究英语命令词语音识别器的说话置信度估计,进而对识别结果进行分类。分类器的错误可以分为两类,误拒绝和误接受。本文构建了元音和辅音(C+V),类音素,全音素三种类型的补白模型。实验主要采用C+V补白模型,该补白模型的建模方法比较简单,易于实现。实验结果显示,C+V补白模型归一化似然等错率从16个共享高斯数的21.55%下降到50个共享高斯数的17.02%。补白模型的共享高斯数越多,等错率越低。全音素的补白模型的归一化的似然等错率是14.18%,类音素补白模型的归一化似然等错率是16.02%,C+V补白模型的归一化似然等错率是17.02%。全音素补白模型的等错率是三个补白模型中最低的,它的性能是最好的。由于全音素补白模型比较细化,模型数目比较多。在硬件实现,特别是嵌入式系统的实现过程需要存储量大,实现困难。全音素补自模型对不同的语种有差异,要经过一定的修改,才能应用到汉语或者其他语种的说话置信度研究估计中。C+V补白模型泛化能力强,精细度弱于全音素补白模型,对不同的语种C+V补白模型相同。实验结果显示,对不同的人,其最佳阈值都很接近,都在0附近,因此说话置信度估计对不同人及不同性别影响不大。
在评价说话置信度估计的过程中,采用了等错误率准则来衡量分类器的性能。本文引入了区分性训练的概念,将差分的训练方法运用到说话置信度的估计上。实验表明,区分性训练的EER比MLE训练的EER降低了15.12%,性能显著提高。