【摘 要】
:
智能设备的普及,让人们越来越感受到语音交互的便利。作为一种非常自然的人机交互方法,自动语音识别自二十世纪七十年代以来一直是机器学习领域的研究热点。近些年来,深度学习的快速发展使得语音识别任务取得了重大突破,端到端语音识别相比传统语音识别,由于其训练流程简洁、易于部署等优点而备受青睐,成为研究的热点。但是端到端语音识别仍面临众多挑战,一直在提升模型准确率和推理速度的道路上慢慢前行。本文主要围绕目前端
论文部分内容阅读
智能设备的普及,让人们越来越感受到语音交互的便利。作为一种非常自然的人机交互方法,自动语音识别自二十世纪七十年代以来一直是机器学习领域的研究热点。近些年来,深度学习的快速发展使得语音识别任务取得了重大突破,端到端语音识别相比传统语音识别,由于其训练流程简洁、易于部署等优点而备受青睐,成为研究的热点。但是端到端语音识别仍面临众多挑战,一直在提升模型准确率和推理速度的道路上慢慢前行。本文主要围绕目前端到端语音识别中存在的问题进行研究。首先,目前大多数基于Transformer的端到端语音识别方法大多利用位置编码来获取序列之间的关系,没有考虑位置信息随着网络层数的加深而逐渐减弱,导致模型难以获得足够的序列间相关信息。其次,在语音识别领域,近几年的方法大多数通过堆叠模型的层数或者组合各种不同的模型结构来提升模型的识别准确率,会导致模型参数急剧增加以及推理速度下降等问题。最后,一些端到端语音识别方法存在在复杂的真实环境中表现较差以及难以进行模型迭代优化等问题。面对以上问题,本文围绕如何提升端到端语音识别模型的性能和鲁棒性展开研究,主要工作如下:(1)鉴于Transformer模型多头自注意力机制对输入序列的位置信息不敏感,以及注意力机制灵活的对齐方式在面对带噪语音时泛化性能较差,会出现长尾现象。首先提出TCN-Transformer模型,构建特定的时序卷积神经网络来加强神经网络模型对位置信息的捕捉。其次,利用连接性时序分类的强制对齐机制加快模型训练收敛速度以及提升模型鲁棒性,进一步提出TCN-Transformer-CTC模型。在不同数据集上的实验结果表明,所提出的TCN-Transformer-CTC模型相比基线模型有着相对10%到20%的字错率下降,具有一定的先进性和泛化能力。(2)鉴于通过大量模型层次的堆叠以及不同模型结构的组合会导致模型参数量急剧上升、有效参数占比低以及模型推理速度降低,自回归解码方式相比非自回归解码方式会降低解码速度,并且无法使用序列的全局信息等问题。本文提出使用中间层损失优化的端到端语音识别方法。首先在基于改进的Transformer以及Conformer模型训练框架的基础上增加中间层损失函数,这种中间层损失很好地规范了底层参数的训练,提高了模型性能。其次,采用n-best重打分非自回归解码方式,即使用CTC解码结果n-best输入到attention进行加权重打分,得到最后的解码结果,进一步提升了准确率,还加快了模型推理速度。在开源语料库上大量的消融实验和对比实验结果表明,所提出的方法可以进一步降低模型字错率和提高模型推理速度,在准确率上可以和最先进的语音识别系统相媲美。(3)鉴于一些端到端语音识别方法存在无法投入使用、在真实环境中表现较差以及难以进行模型迭代优化等问题,本文对所提出的方法进行验证和应用,设计并实现了一个端到端语音识别开放系统。该系统主要功能包括在线语音识别、离线语音识别、以及一系列相关任务,例如语音对话助手和语音合成等。并且,为了方便模型迭代优化,本文将系统设计成分布式应用,系统后台具有可视化数据存储和转写日志记录等功能。综上所述,本文提出两种可行的语音识别方法,有效的缓解了基于注意力模型“位置信息建模能力不足”、“语音识别长尾现象”、“提升性能伴随着模型参数量急剧上升”等问题。最后,基于本文所提出的方法,设计并实现了一个语音识别开放系统。
其他文献
为获得空调用铜制截止阀阀体最小厚度处最大等效应力与盖帽螺母的拧紧力矩关系,利用非线性有限元求解器软件ABAQUS进行仿真计算,并通过测试盖帽螺母变形量对仿真计算结果进行试验验证,仿真与测试偏差均在5%以内,证明仿真数据可靠。研究结果表明:截止阀最小壁厚处达到该截止阀材料屈服强度时,盖帽螺母的拧紧力矩为28.8 N·m,满足标准要求;截止阀阀体应力达到材料抗拉强度时,盖帽螺母的拧紧力矩为113.7
[目的] 利用CRISPR/Cas9系统构建稳定敲除anxa6基因的Caco-2细胞株,为研究大肠杆菌O157:H7效应蛋白EspF与宿主ANXA6蛋白相互作用及其致病机制奠定基础。[方法] 根据CRISPR/Cas9 靶向原理设计并合成3个特异性识别anxa6基因的向导RNA(sgRNA),基于LentiCRISPRv2载体构建LentiCRISPRv2-sgRNA重组质粒,转入293T细胞中,
试验旨在研究菌酶协同发酵饲料对蛋鸡生产性能、蛋品质、养分表观消化率及粪中氨气排放的影响。选取450只52周龄健康的京红蛋鸡,随机分为5组,每组6个重复,每个重复15只鸡。A组(对照组)蛋鸡饲喂玉米-豆粕型基础饲粮,B组、C组、D组、E组蛋鸡分别饲喂等蛋白替代5%、15%、25%、35%豆粕蛋白的发酵饲料的饲粮(即在饲粮中分别使用1.01%、2.88%、4.88%、7.00%发酵饲料)。预试期7 d
目的:研究分析布鲁氏杆菌引起的肾脏损害。方法:回顾性分析2010年5月-2018年5月在内蒙古科技大学包头医学院第一附属医院经肾穿刺活检确诊的布鲁氏杆菌肾病患者4例,分析布氏杆菌引起肾脏损害的临床特征、病理类型及预后。同时结合文献总结该病的特点。结果:4例均有明确的牛羊接触布史,以发热、乏力起病,布氏杆菌凝集试验均阳性。患者血尿不明显,所有患者均有肾功能衰竭;2例是非甾体(利福平)引起的急性肾小管
实施改革开放以来,我国城镇化进程不断加速,促使政府加快农村集体土地的征收步伐。但由于政策不完善、程序不合规等原因致使政府在推进集体土地征收拆迁的过程中举步维艰,与被拆迁户的矛盾日益加重,严重阻碍地方社会经济的发展。本文运用产权理论、公共选择理论、帕累托最优理论,从政府城市化发展动因的显现和被拆迁户对安置补偿的诉求满足程度方面开展对W区集体土地房屋征收拆迁工作的研究。论文在数据资料梳理和问卷调查的基
本文从血证的病情观察、情志、生活起居、饮食等方面探讨了《血证论》的护理方法,从而赞誉了《血证论》辨证施护的学术思想。
深化“互联网+政务服务”平台建设是贯彻落实党和国家有关部署、深化“放管服”改革、全面推进政府治理体系和治理能力现代化的必然要求,也是顺应社会信息化趋势、提升政务服务质量和水平的必由之路。面对目前“互联网+政务服务”平台建设存在的问题与挑战,加强统筹协调、推进政府职能和政务流程再造,夯实基础设施建设、推进数据服务平台优化和均衡化,完善制度机制、推进政务服务平台规范化,突出普惠性、推进政务服务彰显地方
背景:精神分裂症是一类具有认知、情感、意志活动等多方面精神活动显著异常的重性精神疾病。近年来国内外有关精神分裂症患者出现动静脉栓塞的病例报道越来越多,引起临床的重视。目前国内精神分裂症住院患者尚无针对血栓性疾病的系统便捷的预防措施,多在出现症状后筛查凝血指标、D-二聚体、血管彩超等,门诊患者的预防和及时治疗更难以实施,可能导致延误诊治,造成不可挽回的后果。目的:通过比较不同性别、年龄、体重指数精神
猪布鲁氏杆菌病又被称为猪布病,是布鲁氏杆菌感染引起的一种人畜共患传染性疾病,还会威胁牛、羊等多种牲畜。随着生猪养殖产业集约化、规模化发展,出现布鲁氏杆菌感染会迅速向整个猪养殖领域传播蔓延。该文介绍了鲁氏杆菌病的发病特征与流行特点,阐述了该病的临床症状与病理学变化,提出针对性防控措施,确保养殖安全。
内毒素是所有种类革兰氏阴性菌外膜都具有的一种组成成分,被认为是细菌细胞死亡后释放的一类非具体生物分子,内毒素的生化描述为脂多糖(Lipopolysaccharide,LPS),内毒素耐热、稳定性较强,所以可以长期存在于养殖场的环境中,对家畜造成严重的危害。哺乳动物的肠道是动物机体内最大的细菌微生物储存库。肠黏膜受损的情况下会使得LPS分子进入人体血液,引起内毒素血症。肠道黏液层是将共生菌和内毒素与