论文部分内容阅读
本文的研究任务是提高汉语自然语音识别系统的识别率。主要研究了汉语自然语音识别中韵律信息的利用及特征归整技术。首先,针对汉语自然语音的特点对其中的声调和段长进行了研究;同时为了减小训练和测试数据不匹配的影响,对声学特征归整技术进行了研究。论文工作的主要内容和创新点如下:
1.利用声调信息方面:首先对声调嵌入式建模,然后对声调显式建模,在识别结果网格上集成声调信息。在显式建模中,针对汉语自然语音的特点,提出了一种“真实”上下文的单元。实验表明这种单元比上下文相关的单元更能反映自然语音中声调的模式。
2.利用段长信息方面:本文提出一种新的利用段长的方法,即通过对训练数据识别单元段长的统计,把这些信息用于系统的解码和后处理。实验显示该方法能降低系统字错误率,同时能有效地平衡系统的插入和删除错。
3.声道长度归整方面:训练阶段,用一个“模糊”的模型直接计算归整因子代替传统的迭代方法。识别阶段,提出了一种智能算法计算归整因子及文本无关快速归整算法,其中文本无关的算法可以使声道长度归整技术应用于在线系统。
4.为缩小数据的不匹配,实现了特征高斯化算法。为消除说话人的差异,实现了基于CMLLR的特征归整技术。
开发集和测试集的实验结果表明,韵律信息的利用使系统字错误率分别相对降低4.4%和4.6%;改进的声道长度归整和特征归整技术使系统字错误率相对降低12.5%和9.7%。