论文部分内容阅读
黏着语是语言形态学中的一个语言类别,这一类别的语言需要大量依靠词素的屈折变化来表现文法关系。由于语音识别技术在发展历程中主要的研究对象是分析语或低屈折度语言,因此黏着特性对主流语音识别技术构成多项挑战。本文以朝鲜语为例对黏着特性进行研究,力图削弱黏着特性所带来的负面影响,同时尝试使用黏着特性获取对语音识别系统及相关应用有益的额外信息。 本文主要在如下几个方面进行研究: (1)本文根据对朝鲜语语言学特点的分析,确定朝鲜语的黏着特性导致高声学模型混淆度问题。作为解决方案,本文提出依据朝鲜语语言学知识的扩展音素集方法,对由拼写方式导出的基础音素集进行有效区分,从而使识别效果得到提升。 (2)本文针对主流语音识别系统中所使用的短时特征在时域上获取信息能力较弱的问题,提出使用长时特征辅助协同发音信息的获取。协同发音现象是朝鲜语黏着特性所导致的,通常需要较为广泛的时域信息进行描述。在使用长时特征后,基于语言规则或数据驱动的同位音素分离方法均得到大幅改善。 (3)本文针对同位音素分离方法严重依赖于语言学知识的问题,提出自动化同位音素分离方法。自动化同位音素分离方法利用对训练数据的分析,将语言学规则中被认为具有相同发音的音素区分为同位音素单独进行建模并取得良好效果。此外,由于不需要语言学知识,自动化同位音素分离方法可以简单推广至其他黏着语,本文以维吾尔语为例进行附加实验,结果表明这一方法具有很好的可推广性。 (4)本文利用不同词聚合度类型关键词之间的置信度分布差异,对朝鲜语关键词识别系统进行改良。词聚合度是朝鲜语黏着特性所提供的额外属性,代表黏着语由大量词素聚合而成的自然词在子词切分后所产生的子词的数量和类型。实验表明基于词聚合度的置信度规整方法可以有效提升关键词首选精度,从而说明对黏着特性的有效利用亦可以改善语音识别相关应用。