基于语音结构化模型的连续数字语音识别

来源 :苏州大学 | 被引量 : 0次 | 上传用户:huangxz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语连续数字语音识别在现实中具有非常广泛的应用前景,在电话与电信系统的自动语音拨号、身份证号码证实、智能家电中用于电视频道和空调温度的遥控等多方面都有着重要的应用价值。汉语连续数字语音识别是语音识别中的一个重要分支,其主要难点在于,首先不确定数字串的长度,很难准确判别连续数字串中的字间边界;其次连续数字串中的数字是任意组合的,没有可以借鉴的语法知识;再有汉语数字自身的发音特点导致识别困难,如:数字语音间的混淆程度高,汉语连续数字串中各个数字的协同发音现象较严重等。此外,语音通信中不可避免地会受到说话人差异、线路干扰、环境噪声等的影响,引起信号失真,导致识别系统的鲁棒性相当脆弱。本课题研究主要包括两个方面:(1)采用全局声学结构描述的连续数字语音识别。依据描述语音内在关系的、对传输和处理过程中的线路噪声和说话人变化具有鲁棒性的全局声学结构AUS,提出适合于连续数字语音识别的双层结构化语音模型匹配策略,在没有可以借鉴的语法知识情况下,不需要大量的训练模板,只要使用较少的单个数字语音训练数据就可以实现任意长度的连续数字语音识别,且不需要充分的训练语料和通用的信道归一化技术,解决目前语音识别和连续数字语音识别中存在的说话人差异性等的鲁棒性问题。(2)采用直方图均衡的语音识别鲁棒性研究。在语音识别中,加性噪声也是导致系统性能下降的重要原因。直方图均衡化方法是一种非线性补偿变换技术,较传统的基于线性变换技术的抗噪声方法进一步提高了系统的鲁棒性。但实际识别系统中,除了噪声引起语音特征的非线性失真外,还存在训练和测试数据的语音特征类分布不一致问题,从而难以保证传统的直方图均衡化方法发挥其优势。本文提出一种基于特征分类的直方图均衡化方法,实验结果表明,低信噪比时无论在平稳噪声还是非平稳噪声环境下,与传统的直方图均衡化方法相比都进一步增强了识别系统的鲁棒性。
其他文献
随着科技不断进步,现代通信系统的环境越来越趋于复杂多样化,通信中往往受信道衰落、码间串扰、信道间干扰、同频及邻频干扰等可导致信道畸变因素的影响,致使通信质量严重下
DOCSIS是一个由有线电缆标准组织CableLabs制定的国际标准。DOCSIS定义了在有线电缆上提供数据服务所需的通信和运营支撑的接口。它的制订使得在现有的有线电视系统上进行高
自从3G放号以来,中国移动已经在全国大部分城市推动发展TD-SCDMA业务,全国TD用户已达上千万。目前,TD网络已经升级到了HSPA,为了进一步地满足人们对于高速数据业务的需求,存在着两
随着现代科技的飞速发展,全方位视觉技术已经成为机器视觉领域的一个新的研究热点,在民用、军事、医学等方面都得到了广泛应用。鱼眼镜头凭借其超大的视场角、结构紧凑、不易损
随着大数据时代的来临,海量数据背后的重要信息吸引了越来越多人的关注。因此,为了满足科学研究和知识决策的需求,推进社会信息共享,拥有数据的一方常常会将数据向第三方发布。然
IEEE802.16m作为移动WiMAX的演进技术,不仅继承了WiMAX的宽带接入方便以及移动性好的特点,而且接入速度有很大的提高。2010年10月ITU在重庆召开的会上将IEEE802.16m作为4G的两
图像分割是图像处理过程中的关键步骤,就是把图像划分成若干个具有各自独特性质的区域并从中提取出我们感兴趣的区域。对于如何快速有效地提取出目标区域一直受到广大学者的关
水声通信网络作为水下信息系统的重要基础设施,在海洋环境感知、水下目标监测等领域正发挥着不可替代的作用。但由于水声信道频带有限,造成水声通信系统易受到其他水声系统以
无线传感网络和电子科学技术的进步,使得基于压电材料的压电振动能量采集器得到了迅速的发展,将其和低功耗元件相结合之后,广泛的应用于无线传感网络和微电子设备中。  和传统
随着无线通信技术的迅速发展,频谱资源的需求日益增加。本来就十分稀缺的频谱资源成为了制约通信领域发展的一个主要瓶颈。事实上,占据大量频谱资源的授权频段的频谱利用率非常