基于深度注意力机制的音乐流派分类方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:weiqiwin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和多媒体设备的普及,数字音乐在各大应用平台的数量急剧增加。海量的音乐数据对用户造成了极大的混乱,并且很难通过人工对庞大的音乐数据库进行管理。所以如何利用计算机自动地对音乐进行分类和管理成为了目前急需解决的问题。音乐流派作为一种可以描述和理解音乐的标签,能有效区分不同风格的音乐。因此,音乐流派分类任务成为了音乐信息检索领域中最受关注的研究方向之一。在音乐流派分类任务中,特征提取和分类器建模是直接影响分类准确率的两个关键部分。传统的分类方法将特征提取和分类过程进行分别设计,先手动地从原始音乐信号中提取特征,然后选择合理的分类器建模并对提取的特征进行分类。虽然传统的方法在很多分类任务中取得了很好的效果,但特征提取过程复杂不易实现,且不同的分类任务所需的特征需要专门设计,提取得到的特征缺乏通用性。随着深度学习模型在其他领域的成功应用和不断发展,越来越多的研究开始利用音乐的声谱图作为深度学习模型的输入进行音乐流派分类。但目前为止,已有的基于深度学习的分类方法的准确率还并不理想,所以本文主要研究一种基于深度学习的分类方法,以此来提高音乐流派分类模型的分类准确率。本文共提出了两种结构的基于深度注意力机制的分类模型,一种是串行结构的深度注意力分类模型。通过对BRNN的训练,使得其可以自动地从样本中学习到音乐特征,线性的注意力模型根据学习到的特征计算出在该特征上的注意力概率分布,并重新分配给该特征表示。最后根据分配了不同权重的特征向量实现分类。但是,由于串行的注意力模型依赖于BRNN的训练结果,若BRNN不能得到有效的特征表示,则会影响注意力模型的学习效果。考虑到串行结构的局限性,本文对其进行了改进。提出了另一种并行结构的深度注意力分类模型。并且除了结构简单的线性注意力模型,还设计了一种学习能力更强的CNN注意力模型。为了验证模型的可行性和有效性,本文分别在GTZAN和Extended Ballroom两个标准数据集上做了验证实验。实验结果表明,相比于串行结构的分类模型,基于深度并行注意力机制的分类模型分类效果更好,并且利用BRNN与并行的CNN注意力模型进行分类,在Extended Ballroom数据集上准确率达到92.7%,优于现有的基于深度学习的分类方法,证明了该分类模型的有效性和可行性。
其他文献
本论文研究内容来源于某国防科研项目。该项目主要是对某系列海上科研试验船队先进装备系统在技术、知识、成本等方面所存在的累积性断层化风险进行研究,以提出相应的解决方
<正>全面实施乡村振兴战略,是当前我国应对农业和农村发展中面临的一系列严峻挑战的重大战略举措。但我国地域辽阔,各地情况千差万别,决定了推进乡村振兴必须坚持因地制宜,突
改革植物形态解剖学实验课程,加强学生实验操作技能,培养分析解决问题能力,开放实验室,建立实验档案,改革实验考核,促进实验教学质量提高.
车间中重要资源状态的变化将会影响整个生产过程(推迟交货期、浪费资源等)。针对资源的重要性评判问题,结合复杂网络理论在复杂系统分析上的优势,将产品制造过程中的各设备资源
“霍桑效应”是一个心理学名词,是指当被观察者知道自己成为观察对象、受到别人注意时,而改变行为倾向的效应。
农业非点源污染是造成我国流域污染的主要原因之一,而数学模型是研究流域污染、水质分析与预测的主要技术手段。在综合分析目前非点源污染模型的优缺点后,选取当前较为先进和
解尿支原体(UU)和人型支原体(Mh)是引起非淋菌性泌尿生殖道炎症的重要致病菌,并与呼吸道炎性疾病、自身免疫性疾病及不良妊娠结局相关,可引起诸多并发症,其发病率呈上升趋势。大环内
通过全域农业产业布局规划、有的放矢的新农村建设和重点打造的基础设施支撑体系等手段,希望为山区农业产业发展后劲不足的问题提供一些可行的思路。
中国汽车工程研究院股份有限公司汽车NVH技术中心(简称中国汽研NVH中心)是致力于推动我国汽车整车及零部件产品NVH(Noise,Vibration&Harshness)性能和异响(Buzz,Squeak&Rattl
通过对73家交通运输业上市公司的税负测算发现,营改增使得56%的企业税负增加明显,其中铁路和高速公路最为突出。税率过高、可抵扣成本较少、抵扣不充分、"消费型"增值税受益