论文部分内容阅读
随着社会的不断发展,老龄化问题越来越突出,这促使了人们对耳聋问题的关注,助听器的发展开始受到人们的普遍重视。声场景分类作为智能数字助听器的核心技术,其算法处于信号处理的前端,能够识别出助听器使用者当前的听觉场景,自适应地调用相应的处理程序,实现针对不同场景声信号的个性化处理。本质上讲,声场景分类属于环境声识别问题,主要包括两个方面:特征提取和分类。特征提取是对声信号进行维数约减,提取出能代表原始信号的数据;而分类是指通过一定方法编码声特征,并与模板数据库进行比对以确定声信号所属类别。本文主要围绕选择性注意模型、传统的HMM模型和深度学习模型来展开对声场景分类的研究。在特征提取方面,本文通过对声信号的语谱图做显著性分析,提取出显著图特征,再将其与传统的MFCC特征进行混合,形成混合特征。在分类器方面,本文分别使用传统的HMM模型和深度学习模型进行分类。本文所做的工作主要有以下几项:1.阐述了声场景分类技术的研究背景和研究现状,分析了现有声场景分类技术的优缺点,并对当前有待深入研究和急需解决的问题进行了说明。2.概述了声场景分类的理论基础,介绍了声场景分类的几个模块,包括预处理模块、特征提取模块、分类器训练模块和测试模块,并介绍了声场景分类特征提取和分类器设计方面的相关知识。3.深入研究了选择性注意模型,包括选择性注意模型的理论和视觉选择性注意模型中的两种常用模型——Itti模型和GBVS模型,并将视觉理论应用于声学中,完成了对声信号语谱图的显著性分析,提取出了声信号的显著图参数。4.利用提取出的显著图参数得到用于分类的特征向量,再提取出声信号的MFCC特征,将二者进行混合,组成混合特征,再利用传统的HMM分类器分别使用单独的显著图特征、单独的MFCC特征和混合特征完成对声场景的分类,并比较各自的分类效果。5.简述了深度学习的发展历程、主要模型和应用,介绍了深度学习常用方法,包括自动编码器、稀疏自动编码器和受限玻尔兹曼机,介绍了 Gibbs采样过程和对比散度算法,将深度学习模型应用于声场景分类过程中,采用两种常用深度学习模型——稀疏自动编码器和深度置信网络组成混合模型,该模型共包括三个部分:前面使用两层稀疏自动编码器进行构造,中间使用一个三层深度置信网络实现,最后使用Softmax回归作为分类器,再分别利用显著图特征、MFCC特征和混合特征进行实验,比较各自的分类结果。