论文部分内容阅读
语音库的自动建设在可训练的语音合成中占有很重要的地位,它要求对输入的音频进行类别的区分来进行不同的处理,并将处理后的音频分割为句子作为后续的音段切分系统的输入。音频分类和句子切分技术是解决这一问题的关键。此外,已有的音频分类和句子切分技术都需要大量的人工标注数据来训练模型和测试分类结果,但人工标注费时费力,很大程度上增加了系统构建的成本。在这种背景下,极小化标注的音频分类和句子切分的研究有很高的理论研究及使用价值。对此,本论文在基于内容的音频分类和不依赖语音识别的句子切分方面,包括特征选择、极小化标注、关键技术改进以及相关技术应用,进行了深入而系统的研究,本论文具体的研究工作和研究成果如下。1)深入分析了音频信息的主要来源和音频的语义内容,根据所采用的新闻朗读音频的特点,将音频分为:纯语音,纯音乐和音乐和语音的混合三类。从帧层次上和段层次上深入研究了不同类别音频之间的区别性特征,除了频域能量、过零率、MFCC参数等基础特征,还采用了新的特征:静音比率、High-ZCR比率和Low frequency energy比率。本文的一个创新点是,通过深入分析协同训练算法co-training在极小化标注数据量并保证分类精度方面的优势,采用基于最大熵分类的co-training算法进行音频分类。通过实验证明了co-training在音频分类上的性能。2)为实现极小化标注,深入研究了基于最大熵(Maxent)分类的协同训练算法co-training。Co-training是实现极小化标注的核心,通过研究比较了不同参数设置对分类精度的影响,综合时间代价及计算代价进行分析,确定了性能最优的一组参数。同时,针对音频分类和句子切分的数值分类方式,对Maxent分类器的分类方式进行调整。通过实验证明了co-training算法在极小化可用的人工标注数据量和二元分类方面的性能,为极小化标注的音频分类和句子切分的实现提供了坚实的基础。3)通过对依赖语音识别的句子切分方法的缺点的分析,深入研究韵律特征对句子切分的重要作用,据此对音频进行帧水平上的元音/辅音/停顿的分类,并采用了韵律特征、停顿特征和语速两个特征集,对音频进行基于语义的句子切分。为了实现句子切分的无标注特性,引入一种基于强制对齐和语音识别的带有检错机制的标注数据生成方法用于自动提供标注数据,并采用基于最大熵分类的co-training算法,解决了标注数据不足对分类精度的影响,实现了无标注的不依赖识别的句子边界探测。最后,针对无法确定探测出的句子边界是否为真正的边界的问题,提出一种检错机制,通过比对文本和元音/辅音/停顿分类后的音频上的元音个数的相应比例对句子切分的结果进行检错,以确定绝对准确的句子边界,直接用于后续的处理过程和系统中。本文的第二个创新点是实现了句子切分系统的无标注特性,并提出一种检错机制来确定和提取真正的句子边界。