论文部分内容阅读
哼唱检索是一种通过人们哼唱的旋律来搜索目标歌曲的音乐技术。不同于Google这样的传统搜索引擎,哼唱检索并不依赖于歌名、歌手、歌词这样的文字信息,而是直接基于旋律的内容进行搜索。这种自然的检索方式不但在文字信息缺失的情况下能够有效找到目标歌曲,而且在一些文字输入不方便的应用场景下也相当有实用价值。
本论文主要研究哼唱检索中的相关技术。论文基于一个实际的哼唱检索系统,针对哼唱检索在旋律表示、旋律匹配对齐、候选高效检索以及歌曲库的组织等各个环节中存在的问题,提出一系列新的解决方法,并进行了实验验证。本文论述的哼唱系统多次以较大优势在MIREX国际哼唱检索评测中取得第一名,也从一个侧面证明了论文提出技术的有效性。
本论文的主要研究工作与创新点如下:
1.提出综合了声学层、符号层、乐句层三层旋律信息的哼唱检索框架,每个层次的旋律表示都在检索系统中承担不同的责任,从而能够充分发挥各层旋律表示的优点。
2.提出了自上而下的全新旋律匹配策略,并基于该策略提出递归对齐算法RA。不同于传统动态规划方法的是,RA算法先在大尺度上匹配旋律轮廓,再在小尺度上匹配局部细节,有效的强调了长时的韵律结构并淡化了局部失配对整体的影响,从而加强算法对干扰旋律的鉴别能力以及对各类错误的容忍能力。此外,论文还提出一种高效的对齐边界调整算法LBO,能够进一步优化RA的对齐边界。
3.提出了声学层的模糊轮廓因子投票算法以及符号层的层叠过滤策略,用以高效筛选搜索空间,增加系统效率。
4.提出了基于鉴别语言模型的MIDI主旋律音轨自动标注算法,能够有效降低数据库处理过程中的人工干预。此外,论文还尝试将上述方法应用到音乐类型分类和作曲家分类中,取得了良好的效果。