极小化标注的音频分类和句子切分的研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:txiujykyu6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音库的自动建设在可训练的语音合成中占有很重要的地位,它要求对输入的音频进行类别的区分来进行不同的处理,并将处理后的音频分割为句子作为后续的音段切分系统的输入。音频分类和句子切分技术是解决这一问题的关键。此外,已有的音频分类和句子切分技术都需要大量的人工标注数据来训练模型和测试分类结果,但人工标注费时费力,很大程度上增加了系统构建的成本。在这种背景下,极小化标注的音频分类和句子切分的研究有很高的理论研究及使用价值。对此,本论文在基于内容的音频分类和不依赖语音识别的句子切分方面,包括特征选择、极小化标注、关键技术改进以及相关技术应用,进行了深入而系统的研究,本论文具体的研究工作和研究成果如下。1)深入分析了音频信息的主要来源和音频的语义内容,根据所采用的新闻朗读音频的特点,将音频分为:纯语音,纯音乐和音乐和语音的混合三类。从帧层次上和段层次上深入研究了不同类别音频之间的区别性特征,除了频域能量、过零率、MFCC参数等基础特征,还采用了新的特征:静音比率、High-ZCR比率和Low frequency energy比率。本文的一个创新点是,通过深入分析协同训练算法co-training在极小化标注数据量并保证分类精度方面的优势,采用基于最大熵分类的co-training算法进行音频分类。通过实验证明了co-training在音频分类上的性能。2)为实现极小化标注,深入研究了基于最大熵(Maxent)分类的协同训练算法co-training。Co-training是实现极小化标注的核心,通过研究比较了不同参数设置对分类精度的影响,综合时间代价及计算代价进行分析,确定了性能最优的一组参数。同时,针对音频分类和句子切分的数值分类方式,对Maxent分类器的分类方式进行调整。通过实验证明了co-training算法在极小化可用的人工标注数据量和二元分类方面的性能,为极小化标注的音频分类和句子切分的实现提供了坚实的基础。3)通过对依赖语音识别的句子切分方法的缺点的分析,深入研究韵律特征对句子切分的重要作用,据此对音频进行帧水平上的元音/辅音/停顿的分类,并采用了韵律特征、停顿特征和语速两个特征集,对音频进行基于语义的句子切分。为了实现句子切分的无标注特性,引入一种基于强制对齐和语音识别的带有检错机制的标注数据生成方法用于自动提供标注数据,并采用基于最大熵分类的co-training算法,解决了标注数据不足对分类精度的影响,实现了无标注的不依赖识别的句子边界探测。最后,针对无法确定探测出的句子边界是否为真正的边界的问题,提出一种检错机制,通过比对文本和元音/辅音/停顿分类后的音频上的元音个数的相应比例对句子切分的结果进行检错,以确定绝对准确的句子边界,直接用于后续的处理过程和系统中。本文的第二个创新点是实现了句子切分系统的无标注特性,并提出一种检错机制来确定和提取真正的句子边界。
其他文献
随着全球经济发展和工业信息化进程的加速,人们在政治、经济、军事、环境、民生等方面处理的信息量越来越大,并且要求能够通过对这些数据的有效管理,给人们提供有用的决策信息,数
随着网络技术的不断发展,视频流媒体业务正在以惊人的速度增长。与其它数据不同,视频多媒体数据具有数据量大、持续时间长、传输时延敏感等特点,给数字多媒体技术和网络技术
聚类分析是数据挖掘研究的一个重要分支,通过聚类,我们将大型数据集中的数据对象有效地划分到一系列簇中,使得同一簇中的对象彼此相似。对每一类加以合理解释后,我们往往可以
虚拟场景建模技术是虚拟现实中最关键的技术之一,在各行各业中发挥着重要的作用。一个虚拟环境的好坏主要取决于其视景生成的好坏。OpenGL作为虚拟场景建模的一个工具,已经成为
学位
随着计算机应用的普及和互联网络的发展,人们对网络安全越来越重视,作为网络安全技术之一的防火墙与此同时得到了很好的发展。但传统的边界防火墙只在网络边界进行保护,不能
随着科技的发展,人们安全意识的不断提高,监控系统已广泛部署于各种不同的场所。其中嵌入式网络监控系统,即插即用、性能稳定,能够实现恶劣环境下的视频监控,成为目前监控系统研究
学位
随着嵌入式系统的发展,越来越多的系统选择了在LinuX上开发具有特定功能的小型系统。如今在无线网络世界中,无线电信网络无疑是覆盖范围最广,使用量最大,数据通讯也相对廉价
随着互联网的迅速发展和普及,网络资源的需求也迅速增加;与此同时网络中也包含大量的网络攻击,其对网络性能的影响越来越大。网络攻击的直接表现是网络流量异常,这就要求必须
随着计算机网络的广泛普及,计算机的辅助应用已经普遍运用与各行各业,为经济、政治、军事、文化的发展做出了巨大贡献,包括在教育测量方面。教育测量是在20世纪二三十年代首
按照民航局空管体制改革有关优化空管系统资源配置、提高空管系统运行整体效率的要求,建立贯穿于全系统的新型运行保障服务模式,民航空管系统提出建立空管系统“三横三纵”运