【摘 要】
:
说话人识别是根据人特有的语音信号来识别出说话人身份的一种生物认证技术,在说话人识别技术中,关键在于两方面:其一,如何从数据量相当大的原始语音信号中提取出反映说话人个性特
论文部分内容阅读
说话人识别是根据人特有的语音信号来识别出说话人身份的一种生物认证技术,在说话人识别技术中,关键在于两方面:其一,如何从数据量相当大的原始语音信号中提取出反映说话人个性特征的参数. 其二,设计出行之有效的分类器.
本文针对说话人识别技术目前存在的技术难点进行了深入的研究,研究内容主要包括两方面:
对于特征参数的提取,目前使用最为流行的特征参数是基于人耳听觉特性的MEL倒谱系数(MFCC),而 MFCC是基于语音信号短时平稳的假设,在短时傅立叶变换的基础上提取的. 实际上语音信号是一种典型的非平稳信号,短时分析不会随着时间的变化改变分辨率,而小波分析是一种信号的时间一尺度分析方法,它具有多分辨分析的特点,因此本文在基于研究了MFCC的提取原理的基础上,结合小波包对频带的多层次划分,并根据人耳感知频带的特点即Mel频率的分布,选择相应小波包分析后的结点频带,提取出一种基于小波包分析的新型特征参数(WPDC). 并在此基础上结合主分量神经网络,提出了另一种新型特征参数(WPDCNN).
对于分类器的设计,主要应用人工神经网络技术,建立了基于BP网络的说话人识别系统. 针对以上提出的性能下降的问题,本文在分析了己有BP人工神经网络法的基础上,结合DFP变尺度法,融合两者的优点,提出了一种改进的小波神经网络方法的说话人识别系统,该系统能有效的解决随着时间的变化,系统模型失配的问题.
其他文献
孤子方程是非线性科学领域中极具潜力的课题之一.现在已经有很多方法得到孤子方程的解.其中,Hirota方法是一种重要而直接的方法,它主要是把非线性方程化成双线性方程,然后通过摄动
从事宣传思想工作算来已有十四五年了,这些年体会最深的还是大家常说的那句话:“有为才有位。”我在宣传岗位上干了十多年,没有为权小、钱少而困扰,总是一番热情,执着工作,
图像分解和图像去噪是图像处理的两大重要课题,在最近几十年里得到快速发展。图像处理的经典模型是由Rudin, Osher和Fatemi(ROF)提出的总变差模型,它以能够保留边界的不连续
本文主要考虑一个重要的孤子方程:Boussinesq-Burgers孤子方程,运用“Hirota方法”求出了该孤子方程的精确解.本文主要分三个部分. 第一部分是引言,主要介绍了有关孤子理论和“
在初中课程中,作为“小学科”的地理学科,在很多学生看来无足轻重,对学习地理没有兴趣.针对这一现状,新课程实施以来,我把培养学生的学习兴趣作为提高教学质量的主要措施,刻
随着社会经济的快速发展,人们日常生产生活对电能需求不断加大,为供电公司带来了新的机遇与挑战,若是仍然采取传统管理模式,将难以满足社会高速发展的需求,影响供电公司为社
随着我国社会经济的飞速发展,在税收工作和税收秩序方面也得到了逐渐的改进。但是,事业单位在此方面的质量还不够到位,对会计规范的管理工作也有待提升。应采用正确的认识分
本文对线性规划新模型及影子价格进行了探讨。文章指出,影子价格是对现有资源实现最大收益时的一种估价。企业可以根据影子价格的大小,对资源的使用进行合理决策:如果在某段时期
随中国城市化进程的发展,逐步打开封闭式小区成为政策趋势,各方人群关注的焦点在于街区制能否达到提高道路通行能力的初衷.本文建立了小区开放对小区周边道路通行能力的数学
最优化(Optimization),就是在复杂环境中遇到的许多可能的决策中,挑选“最好”决策的科学。在本世纪30年代末,由于军事和工业生产发展的需要,提出了一些不能用古典微分法和变分法