基于鲁棒音频指纹的移动音乐检索技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:jchenghai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网以及多媒体技术的快速发展,使得人们可以更加便捷的接触到各种丰富的数字音乐资源,如何从浩如烟海的数字音乐资源里获得自己感兴趣的音乐数据成为越来越紧迫的问题,基于内容的移动音乐检索技术能够有效的解决该问题。有别于传统文本检索,移动音乐检索直接使用移动终端录制的音乐片段作为检索对象,通过云端检索来获取音乐的元数据。  音频指纹是一段音频数据内容的紧凑数字摘要,作为一种有效的音频特征,大量应用于移动音乐检索领域。本文面向移动音乐检索的需求,研究鲁棒音频指纹算法,并在此基础上实现了一套基于鲁棒音频指纹的大规模移动音乐检索系统,主要的工作有以下几个方面:  一、提出了一种基于频谱峰的鲁棒音频指纹算法。通过对基于频谱峰的音频指纹算法鲁棒性差的现象进行分析,发现了频谱峰漂移的现象,该现象正是导致音频指纹鲁棒性差的主要原因。由此本文提出了基于频谱峰的鲁棒音频指纹算法,该算法引入了结合频谱峰能量与时频域距离的打分公式选取鲁棒音频指纹,在一定程度上解决了频谱峰漂移问题;同时,还使用基于指纹扩展窗的匹配算法对原始频谱峰指纹算法在指纹匹配阶段进行了改进,大幅提升了音频指纹对频谱峰漂移问题的鲁棒性。实验证明,在40万数据集上,相比原始频谱峰指纹算法,鲁棒音频指纹算法能够获得15.8%的召回率提升,以及1.7%的准确率提升。  二、设计了一种面向音频检索的分区式紧凑倒排索引结构。使用分区式紧凑倒排索引结构组织音频指纹特征保证了检索的高效性和系统可扩展性;同时,通过对大规模曲库的音频指纹特征空间进行分布分析,发现不同音频指纹特征区分性强弱差异很大;基于此分析,本文引入逆文档频率的思想,检索过程中禁用高文档频率的音频指纹,进一步改进了检索性能。实验证明,在40万数据集上,分区式紧凑倒排索引结构相比固定链长的索引结构能够获得8.6%的召回率提升,以及1.9%的准确率提升。  三、构建了一套基于鲁棒音频指纹的大规模移动音乐检索系统。通过该系统,用户可以使用移动终端录制音乐片段并上传来进行音乐识别,该系统主要由音乐检索子系统、歌曲采集子系统及移动客户端三部分组成。其中检索子系统使用了分布式架构,提供高效的音频检索服务;采集子系统是一套网络爬虫系统,负责采集网络音频文件及其元数据信息以扩充曲库;移动客户端负责与用户交互。目前该系统的曲库规模达到150万,且系统在40万数据集上的召回率为92.6%,准确率为94.9%。
其他文献
学位
无线网络编码系统可以极大的提高无线网络的带宽利用率。然而,一种名为污染攻击的攻击可以对无线网络编码系统造成极大的破坏,从而影响到网络编码系统在实际部署中的可行性。
随着集成电路工艺的发展,芯片上集成的晶体管数量日益增多,芯片的设计越来越复杂,同时科技的发展和市场的竞争使得设计者必须追求更短的上市时间和更高的性能,系统芯片(SoC)集成
学位
多视角学习是近年来机器学习领域的一个热门研究方向。多视角学习利用事物的两个独立或不相关的视角以特定的训练方式来进行学习。传统的多视角学习用来处理具备多个信息源的
分布式文件系统(DFS, Distributed File System)构成了分布式计算的基础,是如今日益发展的大数据应用的重要核心之一。经过数十年的发展,目前存在种类繁多的分布式文件系统,
现代计算机系统,无论是操作系统还是编程语言、虚拟机等,都采用自动内存管理技术。自动内存管理,即垃圾收集,是指自动回收内存中无用对象的机制。除了采用更高性能的硬件,充
学位
基于质谱技术的蛋白质鉴定是新时代高通量蛋白质组学研究的重要基础,对于人类健康、环境安全、食品安全的检测以及疾病等异常状态的研究独具意义。随着研究的深入和质谱技术的
学位