同声道语音检测及SAPVR算法

来源 :考试周刊 | 被引量 : 0次 | 上传用户:long12312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文分析了同声道语音检测的典型算法SAPVR算法,介绍了算法的基本思想和流程,并用MATLAB工具进行了验证。
  关键词:同声道语音 频谱自相关峰谷率算法
  
  引言
  
  同声道语音是指目标说话人语音混杂着另一个干扰者的说话语音。同声道语音检测属于语音增强技术,是目前国际上的一个研究热点和难点,国内少有涉及者。
  要实现目标语音的提取,首先要能正确地检测出同声道语音帧。同声道语音和单个说话人语音不同之处在于:单个说话人语音波形具有谐波性,而同声道语音波形不具有谐波性,这是区分它们的关键特征。
  
  1 同声道语音检测的基本概念和典型算法
  
  1.1同声道语音检测的基本概念
  实际生活中经常遇到多人同时说话的情况,此时不需要的语音就形成了同声道干扰,通信系统中邻近信道的串话也是同声道干扰。人类的听觉系统擅长分辨在多人说话时某一人的声音,然而,利用数学方法模仿人类的听觉系统只取得了有限的进展。由于语音是宽带信号,目标语音和干扰语音在时域和频域都发生混迭,不能按照常规的通过滤波器的方法来分离,所以同声道语音分离是语音增强的一个难点。要实现目标语音的提取,首先要能正确地检测出同声道语音帧。同声道语音和单个说话人语音不同之处在于:单个说话人语音波形具有谐波性,而同声道语音波形不具有谐波性,这是区分它们的关键特征。
  同声道语音检测问题可以解释如下:给出一个混合的语音信号,该语音信号混合了两人或者更多人,我们要做的就是检测当前的语音帧是否是两人或以上的语音帧。
  
  先将语音信号加窗,然后进行傅里叶变换,求出频谱,再自相关化,选定峰谷比计算算法算出比值,最后与设定的阈值比较,大于该值的就是单个人语音帧,小于阈值的就是同声道语音。需要注意的是,前面已经提到过,这里的语音样本都经过了语音预处理,即已经做好端点检测、去除了静音段、清音段和噪声。
  1.2.2 加窗
  在本算法中,加窗的方法采用汉明窗(Hamming)。
  采用的Hamming窗函数为:
  w(n)=|0.54-0.46cos(2πn/(N-1),(0≤n≤N-1)
     |0,(其他) (3-1)
  其中“N”为窗宽,表示一个音框内取样点的数目,窗宽选择必须适中。将连续信号分割成数个音框,再从音框中提取特征值,将整个语音简单化,以进行辨识。
  1.2.3 进行FFT计算
  前面论述过,同声道语音检测的根据是单个人的语音(实际上是浊音)在时域上具有准周期性,这种时域上的准周期性在频域则表现为具有谐波结构;而同声道语音由于两个人的语音在频域和时域叠加,破坏了这种谐波性。
  傅里叶变换将信号分解为各个不同频率分量的组合,使信号的时域特征与频域特征联系起来。因此,通过语音的短时傅里叶分析就可以研究语音的短时频谱随时间的变化关系,从而研究语音信号的谐波性。
  1.2.4 进行自相关计算
  自相关函数用于测定一个信号自身在时域内的相似性,如果信号的两个部分波形相同,则在超前、滞后处出现峰值,由此可以求出信号自身的相似程度。这里利用自相关函数来处理语音信号经过傅里叶变换以后的数据,可以有效地对数据谐波性做出判定。
  1.2.5 设定阈值并比较
  设定阈值,将所求自相关值与阈值进行比较。若峰谷率大于该阈值,则为“同声道语音”;若峰谷率小于阈值,则为“单个人说话的语音”。
  通常阈值采用经验值。
  1.3 SAPVR算法的验证及结果分析
  1.3.1几个概念
  检出率:算法正确检测出该语音帧是同声道语音的帧数占全部同声道语音帧的比例;
  漏判率:该帧是同声道语音却未被检出,该语音帧占全部同声道语音帧的比例;
  虚警率(误判率):单个人语音帧被判为同声道语音帧,该语音帧占全部单个人语音帧的比例。
  1.3.2 对SAPVR算法的验证及结果分析
  本文采用汉明窗,无重叠,窗函数从150到500数据点,每次增加50;阈值从1到12,增量为1。先检测100帧同声道语音,检出帧数就是检出率;再检测100帧单个人语音,检出的同声道语音数就是虚警率。检测图和检测数据结果如图3所示:
  
  可以看出SAPVR算法对于男性和女性的不同组合,其检出率变化不大;同时检出率越大,虚警率也随之增大。
  2 阈值变化对检出率的影响
  本文给出了阈值变换对检出率及虚警率的影响如图4所示:
  
  从上图可以清楚地看出,算法的检出率与虚警率都与阈值变化成正比。同声道语音与单个人的语音阈值的分界不是清楚的线,而是模糊的带状;将一些“边缘地带”的同声道语音包括进来的时候,也必然误判了一些单个人的语音。
  
  结束语
  同声道语音检测是国际上的语音处理研究最近几年兴起的研究热点和难点,但国内少有研究者。本文首先介紹了同声道语音检测的概念,详细分析并实验验证了目前该领域中典型的SAPVR算法。
  
  参考文献:
  [1] Arvind Ram an Kizhanatham. DETECTION OF COCHANNEL SPEECHANDUSABLE SPEECH[D]. the Temple University Graduate Board.
  [2] Nishant Chandra. DETECTION OF USABLE SPEECH UNDER CO-CHANNEL SPEECH CONDITIONS[D]. Department of Electrical And Computer Engineering Temple University.
  [3] StuartN.Wrigley,GuyJ.Brown.SPEECH AND CROSSTALK DETECTION IN MULTI-CHANNELAUDIO[C]. IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. X, NO. Y, SEPTEMBER 2004.
其他文献
[摘 要]“讲坛马克思主义哲学”和大学生马克思主义信仰体系二者的现状是:总体情况良好,但也存在一些问题。本文通过数据证明马克思主义哲学与大学生信仰之间存在显著的正面相关的关系。为了坚定大学生对马克思主义的信仰就要创新讲坛马克思主义哲学。  [关键词]讲坛马克思主义哲学;大学生;马克思主义信仰体系  [中图分类号]B0-0 [文献标识码] A [文章编号] 1009 — 2234(2014)05 —
摘 要:本文从时代的角度来详谈综合素质的涵义,分析了大学生综合素质现状、大学生综合素质欠缺的影响因素以及培养和提高大学生综合素质的模式和方法,为经管类大学生综合素质教育提出了措施。  关键词:大学生 综合素质 经管类专业 措施    当今社会正处于21世纪科学技术文化高速发展时期,对高科技人才的素质也提出了更高的要求。全面综合性人才的培养符合当今社会发展的需要,是建设有中国特色社会主义的重要保证。
关键词:国际公约;遗留毒弹;伤人事件;隐患;禁止化学武器公约;应急机构;沟通交流   中图分类号:K265 文献标识码:A 文章编号:1009 — 2234(2021)05 — 0101 — 06   日本境内的制造毒剂的大久野岛在战争期间研究并制造生产了大量的毒剂,装填炮弹后源源不断的输入到中国。战争期间,位于齐齐哈尔的516及位于哈尔滨的731两个臭名昭著的恶魔部队,相互勾结,研制
摘 要:高校青年教师已成为高校教育教学的中坚力量,且所占比例不断增大,高校青年教师在其职业发展的过程中会遇到一些问题,及时处理好这些问题,是青年教师快速成长的需要,本文就此进行了探讨。  关键词:高校青年教师 职业发展 问题 对策    随着我国高等教育的快速发展,高校在校学生人数成倍增加,高校原有教师人数远不能满足教育教学需要,大批高校毕业生被补充到教师队伍中来,成为高校教师中的新生力量。为使青
关键词:新时期;社区;党建;红色物业   中图分类号:D267 文献标识码:A 文章编号:1009 — 2234(2020)04 — 0029 — 03   “党的基层组织是党在社会基层组织中的战斗堡垒,是党的全部工作和战斗力的基础。并且村、社区党组织和街道、乡、镇党基层委员会是领导基层社会治理和领导本地区工作的关键。”这是《党章》中关于基层党组织建设的规定,由此可以说城市社区党建对强
绰号“核足球”的黑色提包是美国总统出行时的必备之物。但和文艺作品描绘的不同,它并未包含足以毁灭世界的“核按钮”,而是更接近公文包的本来用途。   它是皇冠和权杖的现代等价物,是最高权力的象征。由于和美国总统形影不离,这个看似无伤大雅的提包,总被电影和小说吹捧为终极权力的象征,是毁灭世界的末日机器。   该公文包内部有坚固的金属框,表面包裹着黑色皮革。它的官方称谓是“总统的应急书包”,不过相比之
新课改形势下的教育,是把学习的内容拓展到了课前、延伸到了课后,这样给了学生很多的学习机会和发展空间。《化学》课程标准告诉我们,这是一门以青少年的生活为基础,以培养良好实验技能、乐于探究、热爱生活的新时代青少年为目标的活动型综合课程。学生的课前准备是教学活动的需要,也是培养学生自主学习能力和分析处理信息能力的重要手段,是培养学生探究能力的有效途径之一。学生可以在课前对这次活动主题进行相应的课前体验、
摘 要:该研究采用统计分析法,对E时代我校部分学生的大学英语综合成绩进行了分析。受试者为晋中学院58名大学英语教师和273名非英语专业学生。统计结果发现:学生的入学成绩与大学期间英语成绩出现不平衡性;师范类与非师范类学生的英语成绩存在着一进一退两种截然不同的发展态势;大学生毕业后在社会上的英语实践能力存在很大的差异性;现时代“大英语”教学模式的独特作用。该研究发现有助于激发大学英语教师反思现有教法
摘 要:和谐民族关系的构建要以处理好民族关系的问题为根本,而影响民族关系的因素有很多方面。本文以五普、六普数据资料为依据,以丝绸之路经济带上甘肃、新疆两省人口迁徙为视角,考察分析甘肃新疆多民族区域民族迁徙交往交流交融的背景因素,得出甘肃、新疆两省历史交融、文化相通、地缘相近,产业关联、发展相连,因此民族迁徙、交融、互动频繁。这为当前深化民族团结进步、促进各民族交往交流交融,加强我国民族理论政策建设
《帝国》杂志(Empire)给已经播出的13集《黑镜》做了排名。第三季的《圣朱尼佩洛》排名第三,《终极玩家》排名最末,剩下几集则排在第四、第六、第八和第九。在电影网站IMDb统计的用户评分中,第三季有四集进入前六,剩下两集排在第八和第十二。  本文参照主创查理·布鲁克和安娜贝尔·琼斯在第三季之后接受的采访,讲述20件关于《黑镜》你可能不了解的幕后故事。    《圣朱尼佩洛》是第三季第一个完成的剧本