【摘 要】
:
与汉语、英语等主流语言的语音合成技术相比,藏语语音合成技术合成的语音在自然度和相似度上还存在较大的差距,因此,借鉴主流语言的语音合成技术来研究藏语语音合成具有重要的意义。同时,由于嵌入式设备性能的不断提升,将藏语语音合成技术与嵌入式设备相结合,可以实现便携式的藏语语音合成系统。本文以嵌入式藏语语音合成为研究对象,设计并建立了一个藏语语音合成语料库,分析并改进了语音合成系统中的声码器,在此基础上,搭
论文部分内容阅读
与汉语、英语等主流语言的语音合成技术相比,藏语语音合成技术合成的语音在自然度和相似度上还存在较大的差距,因此,借鉴主流语言的语音合成技术来研究藏语语音合成具有重要的意义。同时,由于嵌入式设备性能的不断提升,将藏语语音合成技术与嵌入式设备相结合,可以实现便携式的藏语语音合成系统。本文以嵌入式藏语语音合成为研究对象,设计并建立了一个藏语语音合成语料库,分析并改进了语音合成系统中的声码器,在此基础上,搭建了基于深度学习的藏语语音合成系统,并将其移植于嵌入式设备上,实现了嵌入式藏语语音合成系统。本文的主要工作和创新如下:1.设计并建立了藏语语音合成语料库。首先搜集了不同题材的藏语语句,然后剔除其中不常见以及特殊句子,最后按照音节频率进行句子的增加和删除并进行了语音的录制。在保证基本音韵均衡的情况下,建立了10000句高质量的藏语语音合成语料库。2.分析并改进了用于语音合成的声码器。在分析声码器原理的基础上,将其提取的原始语音谱包络特征改为低维谱包络特征,实现了一个藏语语音编解码系统。实验结果表明,改进的声码器生成的藏语语音具有更好的音质。3.搭建了基于深度学习的藏语语音合成系统。在训练阶段,通过前端文本分析获得上下文相关的标注信息,并使用改进的声码器提取声学参数特征,以完成基于深度神经网络的声学模型训练。采用的神经网络模型有深度神经网络(Deep Neural Networks,DNN)、混合长短时记忆网络(hybrid Long Short Term Memory networks,混合LSTMs)、混合双向长短时记忆网络(hybrid Bidirectional Long Short Term Memory networks,混合BLSTMs)。在合成阶段,待合成的藏语文本经过文本分析得到上下文相关的标注信息,声学模型根据上下文相关的标注信息产生相应的声学参数特征,最终声码器依据声学模型输出的声学参数特征恢复语音波形。实验结果表明,采用改进的语音合成系统在三种神经网络模型下的合成语音自然度和相似度均有所提高,采用混合BLSTMs模型的合成语音质量最好。4.实现了嵌入式藏语语音合成系统。建立了两种嵌入式藏语语音合成系统实现框架。嵌入式端与服务器端的交互采用客户端/服务器(Client/Server,C/S)模式。实验结果表明,不同使用场景下系统的最佳实现方式不同。
其他文献
随着计算机技术的发展,人机交互成为了融合物理世界和信息世界的关键,身份识别为人机交互的安全性提供了保障。近年来,研究人员相继提出了多种实现身份识别的方法,比如为可信人员佩戴专用的身份识别卡、借助专用传感器,通过指纹、面部、虹膜等生物特征来确定人员身份、基于无线保真技术(Wireless-Fidelity,Wi-Fi)识别人员身份等。其中,Wi-Fi环境下的人员身份识别方法因具有不需要使用者佩戴额外
伴随着无线技术的不断发展,无线设备的迅速增多,不同的无线通信设备对频谱的需求出现了指数级增加,无线电频谱资源得不到有效地利用已成为主要问题。认知无线电技术可以通过对周围环境的学习,实时调整参数而达到高效利用频谱资源的效果。频谱感知技术作为认知无线电技术的先决条件被越来越多的专家学者所关注。本论文主要对基于发射机感知的认知无线电频谱感知算法进行研究。首先对基于发射机感知的能量检测算法、匹配滤波检测算
抑郁症,又称抑郁障碍,是一种严重的心理障碍疾病。其在临床上表现为显著且持久的心情低落、愉悦度降低、言语活动减少等,具有自杀倾向,严重影响人们的身心健康,也为社会带来了巨大的危害。截止2017年,全球有3亿人患有抑郁症,我国的抑郁症患者也已超过5400万人。当下,抑郁症的诊断方法以主观量表为主,依赖医生的临床经验以及患者的配合程度,缺乏客观指标。因此,语音作为非侵入、易采集、低成本的客观指标,受到了
二十世纪末至今,多样化的通信业务对传输速率要求不断提高,为满足人们日益增长的通信需求,通信技术也不断地进行着变革与更新。某种程度上而言频谱资源是有限的,而传输速率的不断提高使得本就有限的频谱资源显得更加稀缺,多天线技术凭借其可观的分集增益可以有效解决频谱资源紧张的问题。多天线技术能够极大提升系统频谱利用率和信息传输速率,但随之而来的干扰管理问题却成为当今无线通信系统中制约系统性能的主要因素。干扰对
近些年来通信用户对于无线网络频谱资源的需求量日益增加,无线频谱需要被不断分配给各种不同的通信业务使用,导致可使用的频谱资源越来越稀缺。现有的固定频谱的分配方式已经无法满足快速发展的通信业务需求。为此,需要提出新技术以达到频谱资源高效利用的目的,如多天线技术,多址接入技术等。认知无线电技术的提出可以让认知用户通过频谱感知技术去查询系统环境中还没有被使用的频谱,从而实现主用户与认知用户的频谱共享。认知
抑郁症是一种常见的精神障碍,其主要特征为情绪低落、兴趣减退等。由于其较高的患病率和复发率,引起公众的广泛关注。目前,抑郁症的检测方法主要是基于经验丰富的医生的诊断和抑郁量表,这些方法都过于主观且相对不够准确。再加上人们对于抑郁疾患的偏见,使得抑郁症的就诊率和治疗效果都比较差。为此,找到一种客观、有效且适用性高的抑郁症检测方法显得尤为重要。语音以其非侵入,低成本,易获得等特点,使基于语音信号的抑郁识
沙拐枣作为塔克拉玛干沙漠公路防护林主要树种之一,其凋落物储量在各植被类型中最高,通过探究不同环境因素下凋落物分解的变化规律,为沙漠公路防护林的养分物质循环提供理论支持,对于准确估计该区域内的物质循环与能量转化有重要意义。本文通过室内培养试验探究了沙拐枣凋落物表面覆盖、原状混合处理在不同含水量(W1:25%田间持水量、W2:50%田间持水量)的淡水(S0:0 g·L-1)和咸水(S1:4 g·L-1