论文部分内容阅读
随着互联网和多媒体设备的普及,数字音乐在各大应用平台的数量急剧增加。海量的音乐数据对用户造成了极大的混乱,并且很难通过人工对庞大的音乐数据库进行管理。所以如何利用计算机自动地对音乐进行分类和管理成为了目前急需解决的问题。音乐流派作为一种可以描述和理解音乐的标签,能有效区分不同风格的音乐。因此,音乐流派分类任务成为了音乐信息检索领域中最受关注的研究方向之一。在音乐流派分类任务中,特征提取和分类器建模是直接影响分类准确率的两个关键部分。传统的分类方法将特征提取和分类过程进行分别设计,先手动地从原始音乐信号中提取特征,然后选择合理的分类器建模并对提取的特征进行分类。虽然传统的方法在很多分类任务中取得了很好的效果,但特征提取过程复杂不易实现,且不同的分类任务所需的特征需要专门设计,提取得到的特征缺乏通用性。随着深度学习模型在其他领域的成功应用和不断发展,越来越多的研究开始利用音乐的声谱图作为深度学习模型的输入进行音乐流派分类。但目前为止,已有的基于深度学习的分类方法的准确率还并不理想,所以本文主要研究一种基于深度学习的分类方法,以此来提高音乐流派分类模型的分类准确率。本文共提出了两种结构的基于深度注意力机制的分类模型,一种是串行结构的深度注意力分类模型。通过对BRNN的训练,使得其可以自动地从样本中学习到音乐特征,线性的注意力模型根据学习到的特征计算出在该特征上的注意力概率分布,并重新分配给该特征表示。最后根据分配了不同权重的特征向量实现分类。但是,由于串行的注意力模型依赖于BRNN的训练结果,若BRNN不能得到有效的特征表示,则会影响注意力模型的学习效果。考虑到串行结构的局限性,本文对其进行了改进。提出了另一种并行结构的深度注意力分类模型。并且除了结构简单的线性注意力模型,还设计了一种学习能力更强的CNN注意力模型。为了验证模型的可行性和有效性,本文分别在GTZAN和Extended Ballroom两个标准数据集上做了验证实验。实验结果表明,相比于串行结构的分类模型,基于深度并行注意力机制的分类模型分类效果更好,并且利用BRNN与并行的CNN注意力模型进行分类,在Extended Ballroom数据集上准确率达到92.7%,优于现有的基于深度学习的分类方法,证明了该分类模型的有效性和可行性。