限定领域的中文口语理解研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：ninetails

【摘要】

：

口语理解是口语对话系统(Spoken Dialog System)的重要组成部分。口语理解模块旨在从用户的语句中提取语义信息，即识别出输入语句的意图，并抽取出相应的语义槽概念。通常这个任

【作者】

：

李艳玲

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2014年期

【关键词】

：

中文口语理解关键语义概念识别意图识别条件随机场协同训练

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

口语理解是口语对话系统(Spoken Dialog System)的重要组成部分。口语理解模块旨在从用户的语句中提取语义信息，即识别出输入语句的意图，并抽取出相应的语义槽概念。通常这个任务可以分解为两个子任务:关键语义概念识别和意图识别。关键语义概念识别的目标是确定任务领域相关的语义概念;意图识别的目标是确定输入语句的主题或者动作。　　本论文针对口语理解任务面临的一系列挑战，从多方面展开研究，主要的工作和创新点如下:　　(1)针对中文口语理解的两个子任务分别进行了深入研究。关键语义概念识别部分，使用条件随机场的方法进行建模。通过对任务领域的分析，抽取了两大类特征:语义概念前后的指界词特征和人名的常用字特征。实验结果表明，相比字及上下文特征，这些特征可以使F1值在三个测试集上有不同程度的提升。意图识别部分，使用了支持向量机。通过对意图识别特征的分析，提出一种新的特征提取方法。该方法首先统计训练语料中的字频和词频，然后依据领域知识筛选字词特征，最后结合关键语义概念识别得到的语义类特征作为最终的意图识别特征。实验结果显示，这种方法与基线系统相比，不仅提高了意图识别的性能，而且还降低了特征的维数。　　(2)对口语理解两个子任务的组合方式进行了研究。首先，研究了并联型和级联型两种组合方式;然后，在此基础上提出联合型结构进行中文口语理解，即通过三角链条件随机场对意图以及关键语义概念共同建模，用一个单独的图模型结构共同表示它们的依赖关系。通过实验发现:该模型可以将两个任务一次完成，在关键语义概念识别上性能优于其它的组合方式。　　(3)提出利用语义概念规整提高口语理解鲁棒性的方法。针对用户输入语句经常出现关键语义概念变异，以及不同类语义概念具有相同上下文的情况，提出一种新的鲁棒性的口语理解框架。该方法主要对关键语义概念识别部分进行改进。在语音识别文本上进行的实验表明，对于语义类标注，该方法得到的最好结果与基线性能相比，可以使F1值从42.68％提高到82.82％;对于意图识别，识别错误率从基线系统的6.6％下降到4.66％。　　(4)标注数据的获取是口语理解系统开发初期需要面临的一个难题。本文研究了口语理解的弱监督训练方法，包括主动学习和半监督学习方法，以及将主动学习和半监督结合起来的方法。根据本文的口语理解框架提出使用协同训练进行意图识别的方法。实验结果表明:在两类意图识别任务方面，结合主动学习和半监督学习的方法比单纯使用主动学习或者被动学习可以在保证分类性能的前提下，有效的降低人工标注的工作量。协同训练可以通过少量标注数据得到的两个独立特征子集训练的分类器互相提供标注样本，达到自动标注数据的目的。

其他文献

载波相位静态定位研究

该文深入分析了构成GPS定位误差的各种因素和减小这些误差的方法;给出卫星轨道位置的计算方法,和选取GPS导航星的几种方法,基于载波相位观测值的测量原理上,提出了单站载波相

学位

载波相位静态绝对定位测量误差导航星

基于SOA架构的高原景区游客动态信息系统研究

高原地区一般指海拔高度在3000m以上地区，那里旅游资源丰富，吸引着众多观光者。但是，由于高原景区独有的气候环境特征，使初到高原的人易发生急性高原反应（acute mountain sickness

学位

AMS预警模型高原动态信息系统SOA架构生命体征

基于特征融合的全极化SAR图像建筑目标提取技术

全极化合成孔径雷达(Polarimetric Synthetic Aperture Radar, PolSAR)与单极化SAR相比，由于蕴含更丰富的目标极化散射信息，已经逐步应用于环境监测、农林勘查、城镇测绘等诸多

学位

全极化合成孔径雷达图像处理建筑目标提取准确率特征融合

基于小波域的混沌理论图像加密研究

现如今信息技术的飞速前进发展，作为信息中一份子的图像信息，也在各层面广泛应用传播，然而随着人们逐步对信息安全的重视程度越来越高，加之以前单一置乱图像信息加密算法存在着一

学位

混沌序列图像加密密码分析小波域信息安全

GSM系统空中上行信号的截取与上行信号传输时延的估计

全球移动系统GSM是第二代蜂窝系统的标准。GSM系统以其频谱效率高、容量大、保密性强、抗干扰能力强、开放的体系结构以及对宽带业务接入的支持等特点在我国市场上的占有率不

学位

空中上行信号信息截取信号传输时延定位技术无线接口蜂窝式移动通信系统

星载全极化SAR系统距离模糊抑制方法研究

随着星载合成孔径雷达(Synthetic Aperture Radar, SAR)在海洋、农业、生态等多个领域的广泛应用，传统单极化SAR系统所获得的有限信息已无法满足现代军事以及民用遥感的需求。

学位

极化合成孔径雷达发射体制距离模糊抑制算法

图象增强、恢复算法和医学影像处理系统

该文在回顾了图象增强、恢复的基本原理和经典算法之后,研究了对数图象增强、总变分最小化和基于马尔可夫随机场的最大后验恢复三种图象处理方法,随后介绍了医学影像处理系统

学位

图象处理图象增强图象恢复马尔可夫随机场变分法医学影像

基于SPIR的星载Ka SAR GMTI技术研究

星载合成孔径雷达(SAR)地面运动目标检测（GMTI）不受国界限制，在军民领域发挥着重要作用:在战场环境中可以实现情报搜集、感知战争态势等功能;在民用中可实现对城市交通的监控。

学位

星载合成孔径雷达地面运动目标指示波束扫描干涉方法基线布置天线孔径稀疏分布

水声通信系统低密度奇偶校验码和均衡技术研究

随着科技水平的不断发展，海洋以其巨大的资源潜力和重要的战略地位受到人们越来越高的重视。水声通信技术作为一切获取水下信息应用的基础，成为了海洋研究的热点之一。　　水声

学位

水声通信低密度奇偶校验码自适应均衡Turbo均衡直接序列扩频

UACOS设计

该文在第一章介绍了IC卡和COS的基本概念,在第二章中介绍了COS的总体的体系结构.第三、四、五章分别详细介绍了UACOS的文件系统、安全体系、传输协议的实现形式和设计的原则

学位

IC卡COS安全体系

限定领域的中文口语理解研究

其他学术论文