论文部分内容阅读
移动互联网以及多媒体技术的快速发展,使得人们可以更加便捷的接触到各种丰富的数字音乐资源,如何从浩如烟海的数字音乐资源里获得自己感兴趣的音乐数据成为越来越紧迫的问题,基于内容的移动音乐检索技术能够有效的解决该问题。有别于传统文本检索,移动音乐检索直接使用移动终端录制的音乐片段作为检索对象,通过云端检索来获取音乐的元数据。 音频指纹是一段音频数据内容的紧凑数字摘要,作为一种有效的音频特征,大量应用于移动音乐检索领域。本文面向移动音乐检索的需求,研究鲁棒音频指纹算法,并在此基础上实现了一套基于鲁棒音频指纹的大规模移动音乐检索系统,主要的工作有以下几个方面: 一、提出了一种基于频谱峰的鲁棒音频指纹算法。通过对基于频谱峰的音频指纹算法鲁棒性差的现象进行分析,发现了频谱峰漂移的现象,该现象正是导致音频指纹鲁棒性差的主要原因。由此本文提出了基于频谱峰的鲁棒音频指纹算法,该算法引入了结合频谱峰能量与时频域距离的打分公式选取鲁棒音频指纹,在一定程度上解决了频谱峰漂移问题;同时,还使用基于指纹扩展窗的匹配算法对原始频谱峰指纹算法在指纹匹配阶段进行了改进,大幅提升了音频指纹对频谱峰漂移问题的鲁棒性。实验证明,在40万数据集上,相比原始频谱峰指纹算法,鲁棒音频指纹算法能够获得15.8%的召回率提升,以及1.7%的准确率提升。 二、设计了一种面向音频检索的分区式紧凑倒排索引结构。使用分区式紧凑倒排索引结构组织音频指纹特征保证了检索的高效性和系统可扩展性;同时,通过对大规模曲库的音频指纹特征空间进行分布分析,发现不同音频指纹特征区分性强弱差异很大;基于此分析,本文引入逆文档频率的思想,检索过程中禁用高文档频率的音频指纹,进一步改进了检索性能。实验证明,在40万数据集上,分区式紧凑倒排索引结构相比固定链长的索引结构能够获得8.6%的召回率提升,以及1.9%的准确率提升。 三、构建了一套基于鲁棒音频指纹的大规模移动音乐检索系统。通过该系统,用户可以使用移动终端录制音乐片段并上传来进行音乐识别,该系统主要由音乐检索子系统、歌曲采集子系统及移动客户端三部分组成。其中检索子系统使用了分布式架构,提供高效的音频检索服务;采集子系统是一套网络爬虫系统,负责采集网络音频文件及其元数据信息以扩充曲库;移动客户端负责与用户交互。目前该系统的曲库规模达到150万,且系统在40万数据集上的召回率为92.6%,准确率为94.9%。