基于统计模型的哼唱旋律识别算法

来源 :第九届全国人机语言通讯学术会议 | 被引量 : 0次 | 上传用户:hehe521_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种基于统计模型的哼唱旋律识别算法。与传统的非统计算法相比,本文所提出的算法借用连续语音识别中的统计框架及模型,具有较好的鲁棒性。在声学模型方面,采用了高阶倒谱系数作为特征,避免了清浊判定及基频估计错误对系统性能的负面影响。同时,训练了调无关的四元模型以反映音乐先验知识。旋律识别结果最终通过Viterbi 解码算法获得。论文分别从音符识别错误率和哼唱查询系统整体性能的角度给出了算法评测结果,并与其他三个先进的旋律识别系统进行了比较。实验表明,本文所提出的算法在含噪条件下具有最好的鲁棒性,同时在干净数据上的性能接近所有比较系统中的最好结果。
其他文献
本文的目的在于考察普通话女声中三合元音的共振峰特性。元音共振峰间会存在明显滑移段,而三合元音的各元音间更是存在前后两个方向相反的共振峰滑移段。本次测量和统计分析的
会议
本文从认知诗学角度去分析艾米莉·狄金森作品中的诗性语言,研究其诗歌的哲学基础,并且探索诗歌潜藏的隐喻作用。通过进一步解读诗性隐喻所具备的深层意义,进而分析其作品诗
本文运用肌电脑电仪和呼吸带传感器测量了发音人在朗读不同文体时呼吸节奏的变化,通过自动标注提取出呼吸重置的幅度和时长,并分析了它们的频度分布,发现在朗读不同文体时,发音人
本研究通过声学实验考察了30名甘孜藏族区人说普通话时,单字调分布的系统特征。在考察四声分布时,以该地区人整体的调值分布和音高曲线为研究对象,结果显示,该地区人所发的去声最
共振峰和谐波成分是语音的一个典型特征。因为语音和环境的多变性,采用普通的方法提取这些特征存在很多困难。本文提出了一种在窄带语谱图上通过图像增强的方法,求取谐波成分的
本文基于一种适用于宽带语音编码ISF参数量化的非等系数帧间预测分裂矢量量化方案,使用安全网技术对原量化系统进行了改进和扩展,结合无记忆矢量量化系统和预测分裂矢量量化系
我们是深受“四人帮”的“文艺黑线专政”论之害,也深知其恶的。这是“四人帮”篡党夺权的一把刀子,一条绞索,一个令箭。“四人帮”用这把刀子砍杀文艺工作者,使他们政治上
可靠而准确地估计基音周期一直是语音识别领域的一个重要课题,而传统的基音检测方法都有一定的局限性。分数阶自相关是一种新的相关方法,由于分数自相关函数在中心两侧等间隔位
编辑同志: 《人民戏剧》第九期在“群星集”一栏里发表了刘长瑜同志的文章《勇于革新的京剧声腔艺术能手——李维康》,真是一篇引人深思的好文章。“群星集”专栏,向读者推
声源定位是麦克风阵列系统的应用方向之一,本文给出了一个实用的麦克风阵列声源定位系统的具体实现。系统采用基于时延估计的方法来估计声源位置,这类方法分两步进行:第一步是获