论文部分内容阅读
语种识别(Language Identification)(简称LID)是指通过计算机系统对说话人的语音信号进行自动识别判断,得出语音对应语言种类的技术。随着语音识别技术在全球的发展和应用,基于警用的语种识别技术在多语种语音前端识别、情报预警、信息搜集和打击刑事犯罪活动等方面有着重要的应用价值和广阔的发展前景。云南是一个少数民族聚居省份,各少数民族间语言互不相通及行业间语言人才缺失的现状,使得研究和开发一套满足云南公安业务需求的少数民族语种识别系统成为当前公安工作亟待解决的重点。系统选用模式匹配的语音识别方法,通过对矢量量化(Vector Quantization)(简称VQ)技术和动态时间规整(Dynamic Time Warping)(简称DTW)技术的充分应用,实现了对云南不同少数民族语种类型和关键词的识别功能。首先采用Mel频率倒谱系数(MelFrequency Cepstrum Coefficient)(简称MFCC)作为语种识别的特征类型参数,使用矢量量化技术将MFCC处理为具备语种发音特征的少数民族语种码本,通过计算语种码本与待识别语音MFCC的平均失真,找到最小的量化误差,以确定出最匹配的语种类型,从而实现对说话人语种类型和性别的识别;其次选取符合工作需求的特定关键词生成固定帧矢量矩阵,并对待识别语音计算生成测试帧矢量矩阵,使用DTW技术分别计算固定帧矢量矩阵与测试帧矢量矩阵之间的距离得到距离矩阵,得出与特定关键词的相似度值,从而实现对说话人语音中关键词的识别;最后根据实验数据,采用不同方法分别对语种码本和关键词模板进行修正,有效的提高了系统识别率。实验结果表明,MFCC能较好地反映人的听觉特性,VQ技术在各语种男女发音特征参数的处理上具备较好的聚类效果,DTW技术则在合理选取特征模板前提下也能取得较好的识别效果。系统历时1年,在昆明、玉溪等十六个州市公安机关的某部门相继完成软硬件安装部署和数据对接调测后,云南警用少数民族语种识别系统实现了全省的集中建设。目前,系统已上线在云南公安工作中正式使用,通过与其它公安信息系统的安全接入和交互工作,实现了对语音数据库的高效访问和查询。针对公安工作中急需明确语种类型的少数民族语音数据,展现出较高的语种和关键词识别能力,及时在涉及的相关案件中为侦查工作指明方向,甚至锁定犯罪嫌疑人;为特定时间段和特定地点重大活动的安保工作提供情报信息搜集、分析和预警功能。由于本文是在公安领域对云南少数民族语种识别系统的初次尝试,没有现成的系统和成果可以借鉴,所以在语音样本选取和语种特征提取上还存在不足,在实现算法上还研究不深,这些都需要根据工作需求和使用经验,不断对系统作出进一步改进和完善。