基于哼唱旋律的歌曲检索

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户:hifithink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
哼唱检索是一种通过人们哼唱的旋律来搜索目标歌曲的音乐技术。不同于Google这样的传统搜索引擎,哼唱检索并不依赖于歌名、歌手、歌词这样的文字信息,而是直接基于旋律的内容进行搜索。这种自然的检索方式不但在文字信息缺失的情况下能够有效找到目标歌曲,而且在一些文字输入不方便的应用场景下也相当有实用价值。   本论文主要研究哼唱检索中的相关技术。论文基于一个实际的哼唱检索系统,针对哼唱检索在旋律表示、旋律匹配对齐、候选高效检索以及歌曲库的组织等各个环节中存在的问题,提出一系列新的解决方法,并进行了实验验证。本文论述的哼唱系统多次以较大优势在MIREX国际哼唱检索评测中取得第一名,也从一个侧面证明了论文提出技术的有效性。   本论文的主要研究工作与创新点如下:   1.提出综合了声学层、符号层、乐句层三层旋律信息的哼唱检索框架,每个层次的旋律表示都在检索系统中承担不同的责任,从而能够充分发挥各层旋律表示的优点。   2.提出了自上而下的全新旋律匹配策略,并基于该策略提出递归对齐算法RA。不同于传统动态规划方法的是,RA算法先在大尺度上匹配旋律轮廓,再在小尺度上匹配局部细节,有效的强调了长时的韵律结构并淡化了局部失配对整体的影响,从而加强算法对干扰旋律的鉴别能力以及对各类错误的容忍能力。此外,论文还提出一种高效的对齐边界调整算法LBO,能够进一步优化RA的对齐边界。   3.提出了声学层的模糊轮廓因子投票算法以及符号层的层叠过滤策略,用以高效筛选搜索空间,增加系统效率。   4.提出了基于鉴别语言模型的MIDI主旋律音轨自动标注算法,能够有效降低数据库处理过程中的人工干预。此外,论文还尝试将上述方法应用到音乐类型分类和作曲家分类中,取得了良好的效果。
其他文献
多源遥感图像融合技术是指将不同类型传感器获取的同一地区的图像融合成一幅新的图像,其融合处理过程就是采用一定的算法将各图像中包含的冗余信息、互补信息有机结合起来,得到
本文以条斑紫菜(Porphyrayezoensis)为原料,提取不同溶解性蛋白质后进行酶解并对酶解条件进行优化,获得对金黄色葡萄球菌(Staphylococcus aureus)具有显著抗菌作用的酶解物备后续
上海光源工程(Shanghai Synchrotron Radiation Facility,SSRF)是十五期间的国家重大科学工程,为提高工程管理水平,进一步完善信息化体系,PDM(Product Data Management)产品数据
WiMAX作为最具发展潜力的宽带无线接入技术之一,以其独特的优势和魅力,引起了诸多厂商和运营商的广泛关注。WiMAX系统具有优异的性能和广阔的市场前景。因此,目前对该技术的研究
上海光源(SSRF)是先进的第三代中能同步辐射装置,其首期建设的7条光束线站中的XAFS光束线站是一个基于插入件的通用、高性能X射线吸收光谱实验装置。该光束线站主要用于高能量
数据库技术是计算机科学技术中发展最快的领域之一,也是应用最广的技术之一,它已经成为计算机信息系统与应用系统的核心技术和重要基础。数据库设计是信息系统开发和建设的重要
手写数字识别具有广泛的应用前景,很多学者对此做了大量的研究,提出了很多预处理和模式识别的算法,大大提高了手写数字的识别精度。但手写数字识别的识别精度和识别速度问题仍妨
基于IEEE 802.16/WiMAX的宽带无线接入技术,作为解决“最后一公里接入”有良好的应用前景。该协议可在获得高速的宽带无线连接的同时,保证各种不同业务的QoS需求。但在非视距传
随着人口的迅速增长,人类经济活动的不断加剧,生物多样性受到了严重的威胁,生物多样性正以前所未有的速度丧失,这已经成为人类共同面临的全球性问题。生物多样性是人类赖以生
随着当今世界信息量的迅猛增加和国际交流的日益频繁,以及计算机网络技术的迅速普及和发展,不同语言之间的交流障碍愈加明显和严重。因此,人们对机器自动、有效地在不同语言之间