连续语音中关键词快速检出的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:youjian_youjian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词检出是语音识别中一个重要的研究领域,它是在连续语音流中识别出一组给定词的过程,具有识别率高、实用性强、时间耗费少等优点。本文的主要研究内容是连续语音中关键词的快速检出,要求在保持良好识别性能的前提下,尽可能地降低系统的识别时间,以便于实时环境下的应用。本文详细讨论关键词检出系统中使用的Viterbi搜索算法的原理和特点,然后实现一个基于连续隐马尔科夫模型的关键词检出基线系统,对其中各个模块进行简要介绍。所实现的系统基于离线垃圾模型,并使用令牌传递(Token Passing)算法进行在线识别。针对基线系统实时性不高的问题,本文在多个方面对其进行了实时性方面的改进。首先,考虑到语音信号的复杂性,一般采用高斯混合模型对观察概率进行建模。基于隐马尔科夫模型的关键词检出系统中,计算观察概率通常占据全部识别时间的很大一部分。因此,提高观察概率的计算效率对改进系统实时性有很大意义。本文在最近邻快速估算算法的基础上,提出一种称作相邻帧特征相似性的方法。它依据相邻帧之间的高相似性,根据产生前一帧特征矢量的若干个最大的混合分量,有效预测当前帧所使用的最大高斯混合分量。与基线系统相比,这种方法能够降低29.3%的识别时间,而系统性能仅有略微的下降。其次,本文分析Viterbi Beam搜索算法的缺陷发现,基本的Viterbi Beam搜索使用固定的裁剪门限,出于检出率方面的考虑,只能设置保守的门限宽度,不能根据解码过程中各阶段的特点和语音帧的声学特点来动态的改变门限,系统实时性不够高。本文引入自适应裁剪,提出一种基于分位数的裁剪策略。与基线系统相比,这种方法能够降低35%的识别时间,而系统识别性能维持不变。再次,解码过程中,通常省略观察矢量序列的先验概率。这种方法只是从所有词序列中识别出相对最匹配的词串,但是其置信度不一定足够高。本文提出一种称作置信度累加的剪枝方法,在通常基于似然分裁剪的基础上,添加一层基于置信度的裁剪,有效地控制搜索过程使其向着置信度高的方向扩展。与基线系统相比,这种方法能够降低5.7%的识别时间,同时生成的词网格中候选词的规模减少30%,因此,能够大幅降低关键词确认阶段的计算量,尤其适用于确认算法复杂的应用。在此基础上,本文交叉组合以上各种方法,在基本保持识别性能的前提下,大幅降低系统的识别时间,取得较好的效果。最后总结本文的研究成果,并对以后关键词检出的研究方向进行了讨论。
其他文献
航天测控网通过无线信道传输测控信息,为了提高其通信的安全性,本文引入了量子密钥分配技术,利用协商后的密钥加密测控信息,防止信息被非法窃取。量子密钥分配技术是一门新兴
智能规划在人工智能研究领域近些年来一直是一个研究热点。尤其是在1995年Blum和Furst提出了用规划图的方法来解决规划问题的图规划之后,智能规划方向的研究取得了突飞猛进的
以视觉感知为特征的机器系统具有非常广泛的应用领域,如智能视频分析、智能交通、场景识别、战场感知、景象匹配制导、遥感图像分析、图像检索、自动导航、机器人工件抓取等
随着计算机和数据通信技术的不断发展,人们的生活也在快速的进入数字化时代,计算机网络的建立,能够实现数字资料和外部资源共享的最大化。但与此同时,网络给计算机病毒带来了
无线移动网络的快速发展,特别是数据传输速度的大幅提升,促使高质量的图像、音频、视频和三维图形等多媒体数据在无线移动网络上传输成为可能。目前,无线移动网络环境下,基于
肺癌的早期鉴别诊断和淋巴结转移预测,对临床医生制定行之有效的方案,提高肺癌患者的存活时间和生存质量具有重大的临床意义。然而由于肺癌具有时空异质性导致肺癌患者的预后较
随着气敏传感器在日常生活、工农业自动化等领域的广泛应用,人们对传感器的准确度、稳定性和抗干扰性有了越来越高的要求,如何从理论、实践等方面来设计低成本、高精度的气敏传
随着互联网的迅猛发展和移动互联的逐渐成熟,物联网作为一种新型的网络诞生了。为了进一步融合物联网,并使其更好地满足人们生活和工作的需要,我们对面向物联网应用的无缝迁
随着互联网技术出现至今不过短短几十年的时间,但是正是在这并不算太长的时间里经历的不断发展,使得互联网技术对每个人的生活都产生了极其深远的影响。相对于传统意义上的网
随着计算机网络技术的迅猛发展,国民经济和社会信息化的大力推进,互联网和PC机逐渐进入了人们的日常生活。视频新闻、播客、视频共享、网络电视、流媒体等一系列新技术新应用