【摘 要】
:
随着科技的不断发展,越来越多的电子设备运用深度学习技术,使电子设备更加智能化。智能电子设备基本都添加了语音交互功能,以此解放用户的双手。但是语音交互基本通过普通话进行,对于普通话掌握不好和只会方言的用户来说不能很好的使用该功能。为了解决这一问题,一些智能电子设备增加了方言语音合成和方言语音识别等模块,但是目前其合成的方言语音不够清晰自然,不能满足用户的需求。为了提高智能设备中方言语音合成的质量,本
论文部分内容阅读
随着科技的不断发展,越来越多的电子设备运用深度学习技术,使电子设备更加智能化。智能电子设备基本都添加了语音交互功能,以此解放用户的双手。但是语音交互基本通过普通话进行,对于普通话掌握不好和只会方言的用户来说不能很好的使用该功能。为了解决这一问题,一些智能电子设备增加了方言语音合成和方言语音识别等模块,但是目前其合成的方言语音不够清晰自然,不能满足用户的需求。为了提高智能设备中方言语音合成的质量,本文提出一种基于Tacotron2模型的端到端方言语音合成系统。相比较传统的语音合成模型,Tacotron2模型无需过多的人工干预,直接从文本端合成语音到输出端。本论文的主要研究内容包括以下四个方面:(1)数据收集处理:收集方言语音合成系统所需要的文本数据集、语音数据集和Mel谱数据集。首先收集方言文本,将其处理成10298个句子。然后对这些句子进行录音,使用Wave Pad工具将录音逐句切分,使得文本内容与音频内容一一对应。最后把方言文本转换成拼音注音的形式,作为文本数据集,切分的方言语音作为语音数据集。利用预测Mel谱模块将方言文本转为Mel谱,作为Mel谱数据集。(2)系统需求分析:对方言语音合成系统的系统业务进行陈述,并对功能需求和非功能需求展开分析。对系统的功能需求进行建模,通过需求分析确定该系统要实现的功能。(3)系统的设计和实现:对系统的功能模块进行设计并实现。方言语音合成系统主要包括数据处理、文本预测Mel谱和Mel谱转语音三大模块。文本预测Mel谱模块的功能是将输入的注音文本转换成Mel谱,该模块使用Tacotron2模型实现。Mel谱转语音模块是将Mel谱从频域转为时域的音频,该模块使用Wave Glow模型实现。(4)系统测试及分析:对本文方言语音合成系统进行测试,设计测试用例,对系统测试结果进行分析并得出结论。方言语音合成系统的文本转Mel谱模型经过175000步的训练,loss最终收敛于0.3495。对预测Mel谱与真实Mel谱测试结果进行分析,得出模型预测Mel谱与真实Mel谱基本一致的结论。然后对系统响应时间做测试,得出平均合成每秒音频系统的响应时间为3s。最后对合成的语音质量做评价,方言语音的MOS值3.926与原始语音MOS值4.217很接近。本论文方言语音合成系统测试结果表明当前方言语音合成系统符合设计要求,合成语音在自然度和流畅度等方面有所提升,语音合成效果已经非常接近真实人声,达到了系统预期的研究目标。
其他文献
研究背景及目的:肝癌是全球最常见的恶性肿瘤之一,最常见的类型为肝细胞癌(hepatocellular carcinoma,HCC)。HCC是我国癌症死亡的常见原因之一,对国家医疗保健造成了巨大的经济负担。HCC发病隐匿,多数患者在疾病中晚期才确诊,通常错过了治疗的最佳时期。近年来,尽管已在肝癌的诊疗方面取得进展,但由于肝癌发病机制复杂,尚缺乏有效的治疗靶点与分子靶向药物,导致疾病死亡率居高不下。因
目的:心力衰竭(Heart failure,HF)是心血管疾病最主要的死亡原因,射血分数保留性心力衰竭(HF with preserved EF,HFp EF)约占HF的50%,其患病率及死亡率有呈逐年增高的趋势。HFp EF的左室射血分数正常,而心衰的症状和体征通常不具有特异性,迄今HFp EF的诊断仍然是挑战性的。血清胱抑素C(cystatin C,Cys-C)是反映肾小球滤过率的内源性标记物
目的:了解骨折患者社会支持、自我感受负担及创伤后应激障碍的现状;分析一般人口学资料对骨折患者社会支持、自我感受负担及创伤后应激障碍的影响;探讨骨折患者社会支持、自我感受负担及创伤后应激障碍之间的相关性;为减轻创伤骨折患者的心理障碍及提高患者的生活质量创建干预对策及提供理论依据。方法:本研究属于非实验性研究中的相关性研究,采用便利抽样法,以吉林省一所三级甲等医院及辽宁省一所三级甲等医院骨科共计260
《罗森堡项目第四次研讨会:从司法角度对纳粹进行反思清理——罪犯、受害者、司法》是由德国联邦司法部公布的《罗森堡项目研讨会》系列文件之一。这一系列研讨会的主题是探
背景:胃癌是人类最常见的恶性肿瘤之一,其致死率高居常见肿瘤的前三位。大部分胃癌患者被发现时通常为晚期,其中位数5年生存率不超过20%。目前,胃癌治疗的最佳方法是手术切除,并采用根治性治疗和辅助化疗或放疗。但是,胃癌的复发率仍然很高,而且预后较差。因此,进一步研究促进胃癌进展的分子机制是揭开新的诊断或预后指标的关键,同时也是改善临床结果的治疗目标。亮氨酸拉链EF-hand结构域跨膜蛋白1(LETM1
本论主要研究明清时期宁夏进士分布特点及其著述。研究对象是从明永乐六年(1408)宁夏首次开科考试到清光绪三十一年(1905)废除科举制以来,出生于宁夏并以宁夏户籍参加科举考
目的:陈皮藿香汤来源于清代的《医学从众录》,用于治疗霍乱吐泻等症,但其药理作用机制未见文献报道。此外,陈皮藿香汤是陈皮藿香作为药对应用的经典方剂。陈皮和藿香作为药对
近年来,多菌灵是我国农业生产中越来越频繁应用的一种杀真菌剂农药,同时农药的亚致死剂量效应对蜂群的影响也在不断扩大,油菜等作物大量使用,对于追花逐蜜的转地放蜂模式影响较大,有研究表明多菌灵在花粉中的检出率最高。意大利蜜蜂(Apis mellifera ligustica)作为中国饲养量最大的蜂种之一,对我国的农业生产和生态环境至关重要,当国外不断出现蜜蜂群体大量消失的情况,在我国也出现越冬期蜜蜂批量
目的:SIRT6属于Sirtuin蛋白家族的7个成员之一,是酵母沉默信息调节因子Sir2的同源物,SIRT6的研究已经拓展到多种疾病中,SIRT6对多种生命活动的调控作用逐渐被阐明,与之相伴的
在中国古典诗歌美学史中,诗乐合一是诗歌生发的源头。随着诗乐分离、儒家对诗教理论的不断丰赡,乐教成为诗歌发展中的潜流,在诗歌脱离音乐以文字呈现的过程中常常伴随着以乐教理路来反思文字诗的审美状态。这种以乐观诗的诗学思路在文字诗各种题材、体裁接近完备和饱和的中国古典诗歌末期以一种诗乐一体的审美理想指引着诗歌发展的道路。笔者正是从这一角度来观照明代复古诗学,挖掘复古诗学于宗唐、宗汉魏之外在探索诗歌发展中对