汉语自然语音识别中韵律信息的利用及特征归整技术的研究

来源 :中国科学院物理研究所 | 被引量 : 0次 | 上传用户:yishu888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的研究任务是提高汉语自然语音识别系统的识别率。主要研究了汉语自然语音识别中韵律信息的利用及特征归整技术。首先,针对汉语自然语音的特点对其中的声调和段长进行了研究;同时为了减小训练和测试数据不匹配的影响,对声学特征归整技术进行了研究。论文工作的主要内容和创新点如下:   1.利用声调信息方面:首先对声调嵌入式建模,然后对声调显式建模,在识别结果网格上集成声调信息。在显式建模中,针对汉语自然语音的特点,提出了一种“真实”上下文的单元。实验表明这种单元比上下文相关的单元更能反映自然语音中声调的模式。   2.利用段长信息方面:本文提出一种新的利用段长的方法,即通过对训练数据识别单元段长的统计,把这些信息用于系统的解码和后处理。实验显示该方法能降低系统字错误率,同时能有效地平衡系统的插入和删除错。   3.声道长度归整方面:训练阶段,用一个“模糊”的模型直接计算归整因子代替传统的迭代方法。识别阶段,提出了一种智能算法计算归整因子及文本无关快速归整算法,其中文本无关的算法可以使声道长度归整技术应用于在线系统。   4.为缩小数据的不匹配,实现了特征高斯化算法。为消除说话人的差异,实现了基于CMLLR的特征归整技术。   开发集和测试集的实验结果表明,韵律信息的利用使系统字错误率分别相对降低4.4%和4.6%;改进的声道长度归整和特征归整技术使系统字错误率相对降低12.5%和9.7%。
其他文献
探测和操纵单个电子、单个原子/分子的自旋对自旋电子学、量子计算和自旋量子器件的发展具有重要意义。本论文的主要内容是利用极低温扫描隧道显微镜(STM)进行单原子/分子自
学位
光声成像技术是近年来发展迅速的一种医学影像技术,由于其结合了纯光学成像的高对比度特性和纯超声成像的高穿透深度特性,同时具有无损伤、无电离效应等优势,应用前景非常诱人。
近年来,晕核现象引起了人们的广泛关注。晕态通常被描绘为围绕在核芯周围的一层稀薄的核物质遮盖物。迄今为止,在许多轻奇异核中都发现了晕结构。尽管人们对晕现象进行了广泛
本论文以具有Hg2CuTi结构的Mn2NiGa材料为出发点,采用电弧熔炼、甩带等方式制备了系列样品,通过调节成分、掺杂等方式研究了结构、磁性、输运性质等。不仅在新材料中得到了新的
强子之间的相互作用以及强子的性质是强相互作用领域的重要研究对象.手征微扰论则是研究最轻的赝标介子之间相互作用的最有效的工具之一.然而由于该理论中的拉氏量是对动量和
学位
今天RFID已被广泛应用在多种地方,从远距离无钥匙的汽车开启、动物跟踪、高速公路收费到商业供应链的管理,随处可见它的身影。随着RFID的大面积应用,安全与隐私方面暴露出的问题
学位
随着我国经济的发展,环境污染问题也越来越受到人们的关注,其中大气污染是对人类影响最大的污染之一,为了能够针对不同的污染程度采取相应措施进行控制,首先需要做的就是掌握大气
凝聚态系统中存在着超出玻色和费米统计之外的任意子。任意子有奇特的统计性质,携带着体系的拓扑信息,因此在拓扑量子计算中有很好的应用前景.二维的Kitaev模型正是一个有任意
聚合物稳定蓝相液晶之所以被誉为下一代液晶显示技术,是因为其具有以下诸多革命性优点:亚毫秒的响应速度,使其比当前主流的向列相液晶显示器的响应速度大约快了近10倍;不需要取向层,可以大大简化制作工艺,降低生产成本;关态时,是光学各向同性,所以能够形成宽且对称的视角;当蓝相液晶盒的厚度超过一定值时,透过率对其变得不再敏感,适于制作大屏液晶显示器。然而,驱动电压过高、透过率较低这两大技术难题制约了蓝相液晶
学位
金属玻璃因为其优异的力学性能,有成为结构材料的广泛应用潜能。但是,因为在受力过程中高度的剪切局域化,其塑性变形往往发生在微小的区域——剪切带内,导致其缺乏宏观的室温塑性