半指导中文语义角色标注

来源 :北京大学 | 被引量 : 0次 | 上传用户:fanyanbing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着丰富的标注资源的建立以及多次国际评测的开展,语义角色标注任务得到了较全面的研究,其中最主流的研究方向是基于句法成分的、使用机器学习方法将任务转化成分类问题来解决,长期以来,国内外学者在特征工程的选择上做了不少详尽的研究,并取得很好的效果。   近几年大部分有指导语义角色标注系统的研究都是基于宾州大学命题库标注体系,这种资源的统一一方面方便于各种研究方法的对比,有利于研究的发展,另一方面也可能会导致研究方法过于拘泥于该语料库,对语料库产生依赖。近年来,北京大学开发出一套新的标注语料-北大网库,本文首先将传统研究方法应用于新语料,检验研究方法、尤其是特征选择是否对标注语料具有依赖性,实验中我们发现前人方法中的一些不足,尤其个别特征在北大网库上作用更关键。   此外,由于一方面有指导语义角色标注对标注资源的需求很大,而标注语料的获取并不容易;另一方面使用有指导学习方法得到的标注系统在新领域的效果下降很快,领域适应性不高,本文尝试将自学习,协同训练两种半指导方法应用于语义角色标注任务中。与国际上已有的相关研究相比,本文重点讨论如何保证在每次学习过程中所添加数据的质量。主要研究方法是针对模型中显式的和隐含的一些参数就行调试。在自学习过程中,我们设计使用了多种三种不同的选择策略,包括固定阈值、动态阈值以及Top-N%选择方法;多种不同的添加策略,包括不删除策略、删除策略及修改策略等。对于协同训练过程,本文首先使用自动特征选择方法挑选出两个相互独立的特征集合,分别采用了基于概率值、基于标注统一以及基于分工合作三种协同训练的策略进行数据选择。实验证明,根据语义角色标注任务的特点,通过对半指导学习模型进行适当调整,可以使标注系统在新领域获的分类效果得到显著提高。   我们使用的是北大网库(基于北大汉语句法树标注体系)训练得到的初始分类系统,在测试两种半指导学习方法的有效性方面,我们尝试使用了两种不同的标注体系的语料,一种是北大网库数据,另一种是PropBank测试数据。实验结果证明半指导学习方法不仅在同标注体系的新语料中表现良好,而且同样能适应适应标注体系不一样的情况,系统效果有所提高。
其他文献
因为互联网的普及与发展,如今已经进入了信息过载的时代,用户没有足够的能力和精力对海量的信息进行鉴别和过滤。个性化推荐技术,能够根据用户的个性化偏好为用户推荐其可能
随着互联网的发展,移动互联网的成熟,用户量不断增大,用户的需求也变得多样化,传统的服务器架构已经不能承受住来自海量用户的并发请求了。本文通过对Nginx服务器进行研究,掌
NAND Flash存储器以其体积小、功耗低、启动快、价格低廉和抗恶劣环境等优点,已被广泛应用于嵌入式领域作为数据存储设备。同时,基于NAND Flash存储技术的固态盘已被看做传统磁
语音增强技术用于减小含噪语音中的噪声干扰,提高语音的质量和可懂度,因此在语音通信、语音识别、助听器等领域具有重要的作用。本文针对语音增强中的噪声估计和噪声去除这两
随着移动通信以及空间定位等技术的融合和发展,移动通信领域中产生并积累了海量的、动态变化的时空数据。这些信息中蕴藏着丰富的用户行为规律。利用数据分析及数据挖掘等技
在嘈杂的室内环境中,听者对特定目标语音的加工会受到周围背景噪声和其他说话人语音的干扰。听觉系统如何从接收到的混合声波中有效地识别和理解目标语音至今尚未得到充分的
图片搜索引擎是以图片作为主要检索对象的搜索引擎。由于图片搜索引擎的结果通过直接引用图片的原始地址来展现内容,如果图片变为无效链接,则在结果中无法展示。无效结果通常为
随着信息技术的高速发展,互联网已经完全融入了人们的学习、工作和生活,成为人们获取信息的一个重要途径。互联网上日益丰富的图片资源,使得图片被越来越多地应用于信息的承载和
计算机科学技术的不断发展,使得计算机在科学研究和工程实践领域得到广泛和深入的应用,科学研究和工程实践领域需要借助于并行计算来解决大规模计算问题,并且随着研究工作的深入
在现今信息时代中,因特网的迅猛发展促使了许多网络信息处理技术的产生,其中应用最为广泛的就是协同计算。一般地,在网络协同计算中,各个计算参与方需要提供各自的秘密信息作为输