论文部分内容阅读
近年来,受益于大数据和深度学习技术的发展,语音识别技术取得巨大进步,语音识别准确率大幅提高。但是受环境噪音、口音、语义等方面的限制,语音识别错误仍然难以避免,特别是在专业领域的语音转写方面准确率难以满足实用需求,所以一般都需要对转写结果进行纠错处理。纯人工纠错效率极低,甚至可接近直接进行人工语音转写;而自动纠错对准确率提升有限,难以实用。针对这一问题,本文研究融合用户反馈的语音转写结果快速纠错技术,重点关注如何采用人机交互界面及自适应学习方法响应用户反馈,使用户通过少量的操作即可完成对识别结果的纠正,提升纠错效率。 本文主要研究成果如下: 1.提出融合非确定性反馈的混淆网络扩充方法 针对已有语音转写结果纠错方法反馈方式单一、候选列表准确率不足、词网格扩充效率低等问题,本文提出融合非确定性反馈的混淆网络扩充方法。该方法同时提供确定性反馈(候选选择、删除、插入)和非确定性反馈(拼音反馈、指示型反馈)等多种用户反馈方式,并可利用反馈信息,基于音节混淆矩阵和缓存语言模型对混淆网络进行扩充,提高混淆网络对正确答案的覆盖率。 2.提出基于混淆网络重估的候选列表更新方法 针对当前基于词网格的重估算法,存在词网格结构复杂导致系统响应速度慢、没有充分利用用户反馈的问题,本文提出基于混淆网络重估的候选列表更新方法。该方法以用户反馈信息作为上文约束,结合基于历史反馈信息建立的缓存语言模型,用Beam Search算法对新的混淆网络进行剪枝,对重估后的混淆网络计算每个节点的后验概率并重新排序,从而生成准确率更高的候选列表。实验结果表明,结合了混淆网络扩充和候选列表更新后,在多个领域的测试语料上,确定性反馈后用户输入比例减少14.79%至21.18%,平均响应时间小于0.04秒,指示型反馈后新候选列表准确率达68.7%-96.2%,平均响应时间小于0.2秒。 3.设计实现融合用户反馈的语音转写结果纠错系统 基于本文提出的方法,结合实际应用需求,设计和实现了融合用户反馈的语音转写结果纠错原型系统。本系统包含混淆网络扩充模块和候选列表更新模块,扩充模块为用户提供多种反馈方式,并利用用户反馈信息完成对混淆网络扩充;更新模块完成对混淆网络的重估排序。系统基于文档觎图结构,在逻辑上使数据和显示分开,降低系统的耦合性,提高语音转写结果纠错系统的扩展性和实用性。