论文部分内容阅读
随着语音信号处理技术的日益完善,藏语语音识别、合成技术取得了长足地进步,这对藏语使用者来说受益匪浅。近年来,随着藏区经济不断发展和地区间的文化交流不断深入,藏族人对普通话的学习需求越来越大。在这种背景下,有效的帮助藏语语者学习普通话就显得尤为重要。安多方言作为藏语的一种方言,它的特点是没有声调,而普通话则是一种声调语言。所以,母语为藏语安多方言的藏族人在学习普通话时存在困难。本文以母语为藏族安多方言的在校大学生说普通话的语料为研究对象,以声调偏误和音素偏误为研究内容,结合实验语音学和深度学习,对检测声调和音素偏误的方法进行了重点研究。具体工作如下:1.语料库的设计和建立。本文语料库包括标准普通话语料库和安多藏族大学生说普通话语料库。标准普通话语料库主要由单字调、双字调标准普通话构成。安多藏族大学生说普通话语料库由1280个单字调、2560个双字调以及1280个句子三部分组成。2.声调偏误检测。本文声调偏误检测由两部分构成:听辨实验、相似度检测实验。在听辨实验中,对安多藏族大学生说普通话语料库中所有语音进行听辨,判断其是否发生偏误,并对听辨结果进行统计分析。在相似度检测实验中,首先用单字调和双字调标准普通话语料各自求基频曲线相似度,求得平均值作为检测阈值。再对标准普通话语料和安多藏族大学生说普通话语料的基频曲线计算相似度,根据检测阈值确定是否发生偏误,得出检测结果。最后对听辨实验结果和相似度检测结果做复合评价,计算检测准确率。结果表明,采用相似度对声调进行偏误检测时,单字调检测效果较好。3.音素偏误检测。本文在不同的声学模型下,运用两种不同的声学特征对音素偏误进行检测。将thchs30语料作为训练数据,1280句安多藏族大学生说普通话语料作为测试数据进行实验。在DNN-HMM和GMM-HMM下,使用不同的声学特征对音素偏误进行检测,将结果与听辨结果结合,计算复合评价。实验结果表明,在DNN-HMM下,将MFCC作为输入特征,有较高的检测准确率。