孤立词语音识别芯片中的量化及Viterbi算法研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hwcf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着语音识别技术的不断研究和发展,许多语音识别算法已经非常成熟,并出现了一些商用语音识别软件,例如IBM中文语音识别系统ViaVoice。但专用语音识别芯片的研究和开发还较少,这极大影响了语音识别技术的使用和推广。  本文研究内容主要应用于小词汇量、非特定人、孤立词的汉语语音识别芯片。论文研究了矢量量化(VQ)和隐马尔可夫模型(HMM)等语音识别技术的算法和原理,完成了基于离散隐马尔可夫模型(DHMM)的Viterbi算法与矢量量化算法的软件及硬件实现。  论文首先对32、64孤立词语音识别系统,采用了矢量量化法和离散隐马尔可夫模型法进行了定点和浮点的试验比较。在定点实验中,VQ法得到的识别率分别为82.19%和81.26%,离散隐马尔可夫模型法分别取得了98.75%和98.13%的识别率,从而验证了离散隐马尔可夫模型法的优越性。接着,论文提出了改进Viterbi算法,该算法是在求最大路径的基础上,分别求出第二大和第三大路径,然后对第一、第二、和第三大路径进行加权求和。通过实验比较,采用这种算法得到的识别率要比Viterbi识别算法得到的识别率稍高。然后,通过实验确定了量化码本数。对于32、64词孤立语音识别系统,分别进行了定点和浮点实验。通过研究对比,矢量量化码本数选64最适宜。初始码本的选取采用分裂法得到的识别率比随机法得到的高,可见分裂法优于随机法。分析了空胞腔处理对语音识别性能的影响以及码本容量的选取问题。  最后,论文采用Verilog语言设计了VQ模块和Viterbi译码模块,并完成了功能仿真和逻辑综合。VQ模块采用嵌入的DSP软核实现,论文完成了嵌入汇编语言编写,及代码联调。  本文采用离散隐马尔可夫模型,Viterbi算法进行译码,量化码本数为64,初始码本采用分裂法,Viterbi译码模块采用硬件实现,目前已经通过了FPGA验证。
其他文献
H.264是目前最新的国际视频编码标准。AVS是中国最新的音视频编码标准。AVS标准与H.264标准具有类似的技术框架,都采用了变换、量化、熵编码、帧内预测、帧间预测、环路滤波等
为全面贯彻习近平总书记学校思想政治理论课教师座谈会重要讲话精神,做好学生成长引路人,笔者通过优质思政教学团队打造、高职高专思政课主渠道地位作用发挥、全面提高人才培
随着电子和计算机技术的发展,指纹识别技术近年来开始广泛地应用在门禁系统、网络安全、公共安全、金融服务等领域。自动指纹识别技术(AFIS)通过特殊的光电转换设备和图像处理技
在无线通信系统中,由于各种不确定因素如:设备间的频率偏差、终端移动引起的多普勒频移、无线传播信道的变化等,使得载波频率与本地晶振之间存在着较大的频率偏差。因此往往需要
随着国学风靡全球,当代大学生对语文学习的热度不断增长.语文学习需要花费较长的时间,并且频繁接触与应用,才会获得良好学习效果.在语文教学中,书写是课上必不可少的一部分,
当前,随着时代的发展和社会的进步,医疗领域有了很大的进展,高职护理专业不断培养出优质的护理人才,而在高职护理专业英语教学过程中,使学生的英语素养得到显著提升,听说读写
光学相干层析技术(OpticalCoherenceTomography,OCT)是一门新兴光学成像技术,其具有高分辨率、高灵敏度、非接触、非破坏性等优点,在生物医学特别是临床检查、外科手术微结构成像
随着信息技术的快速发展,我国大学生的生活和学习都和网络信息息息相关,网络中的不良信息对大学生的心理健康也有着十分不利的影响,甚至会引发大学生一连串的心理问题.就网络
近年来,多媒体己经普及到千家万户。相应的数字视频处理技术逐渐成熟,且在视频通信等领域得到日益广泛的应用。实现视频编解码的IC芯片成为多媒体应用的核心技术之一,同时也
学位