基于生物实体语境的语音识别后文本纠错算法研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:lianjinshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术是人机交互的重要手段,但由于环境噪音、话语人口音等因素,在实际应用环境中的语音识别正确率并不高。如何提高语音识别正确率是一个亟待解决的问题。本文从语音识别后文本处理角度对语音识别结果进行检错纠错,以达到优化语音识别的目的。本文将自然语言理解的方法应用于基于生物实体语境的语音识别后文本处理上,通过识别待纠错实例中的命名实体作为划分语境的标准,对语音识别后文本进行检错和纠错。在特定领域(生物医学领域)中的实验结果表明,本文算法在语音识别后文本纠错的正确率上比王兴建等基于词境的混淆词网纠错方式的正确率提高了42.4%。对于语音识别的鲁棒性研究具有一定的借鉴,本文的主要工作有:1.搭建网络爬虫,从相关网站获取原始语料,为实体语境库的建立提供相应的语料环境。2.应用命名实体识别技术,对特定领域(生物医学)进行实体词识别,从而建立相应的具有同一实体词的实体语境。3.通过对语音识别技术的研究,把音素这一语音识别过程中的关键声学建模因素加入到语音识别后文本纠错中,增加了语音识别后纠错的原始信息输入。4.研究相应的应用场景,通过改进型句子相似度计算方法,将其应用于本文的纠错框架中,取得了比较好的纠错效果。最终将上述的研究成果应用于完整的语音识别后文本纠错系统中,设计实现了纠错算法框架和实现步骤,进行对比实验,结果表明纠错效果比前人有一定提高。
其他文献
车辆排班算法主要关注于如何合理地、有效地安排车辆到相应的班次,以获得费用成本的最小化。在大型运动会中,我们不仅要给每个车辆准时指派到相应的场馆,而且还需要尽量减少
现如今随着计算机科学与技术的飞速发展,数字图像处理技术的应用范围越来越广,渗透到社会的各个领域。通过高分辨率相机采集物体表面图像,经过图像滤波、边缘检测、特征提取等一
学位
随着Web服务研究的发展,越来越多的Web服务方法理论研究和应用开发在Web服务的服务质量的基础上进行,即以获得准确的Web服务的服务质量数据作为研发的前提条件。本论文提出的We
以IEEE802.11为代表的无线局域网技术正在经历飞速发展。随着无线互联网基础设施日益完善和带有WiFi功能的电子设备急剧增加,随时随地接入互联网已经不再是美好的愿望,人们正在
云计算是一种基于互联网的计算新方式,其核心思想就是将网络上的资源和能力进行更有效的分享,以达成高效率、低成本计算的目标。虚拟网络子系统作为基础设施云计算系统中必不
学位
学位
随着互联网、电子商务、电子政务的快速发展,IT服务(信息技术服务)已经成为全球经济发展的重要支柱。IT服务也逐渐变成我国现代服务业的基础。随着IT发展进入信息业务阶段,IT服
伴随着互联网的迅猛发展,网络中的数据量也成指数增长。这些网络数据很多都是以文本形式出现的。文本作为因特网中重要的信息载体,一直是相关领域的热门研究对象。在商业中,