基于CRF模型的语义角色标注研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:wheatmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义分析是自然语言理解的关键技术之一。尽管经过几十年的发展,目前仍没有成熟的方法能够自动获取文本的语义信息。语义角色自动标注是对这一关键技术的初步探索。   本文首先介绍语义角色标注的定义和语料资源,其后在对现有的语义角色标注方法进行较深入分析和总结的基础上,提出了不同的特征选择方法来对英语和汉语进行语义角色标注。在汉语的实体关系抽取中,提出区分包含关系和非包含关系的方法,通过引入语义角色标注的特征来提高汉语实体关系的抽取精度。具体地说,本文的主要工作有:   第一,从标注方法、标注步骤以及特征选择这三个方面总结和分析了目前国内外语义角色标注的研究现状。另外,还介绍了汉语语义角色标注以及语义角色标注的应用情况,包括自动问答,信息抽取,机器翻译等。在此基础上,我们给出了未来语义角色标注研究值得关注的几个问题。   第二,针对基于树条件随机场模型的英语语义角色标注方法中,句法树父子结点之间的约束关系相对比较薄弱的不足,我们提出“压平”句法树,在线性链条件随机场模型中引入句法树“水平层次”上的角色标签之间的马尔科夫依赖关系。另外,在比较了不同特征对于语义角色标注任务的影响后我们提出了一些新的特征以提高英语语义角色标注系统的性能。   第三,针对汉语语义角色标注任务,我们定义了12角色的汉语语义角色标注规范,并且选用863TreeBank中部分新闻和应用类型的文档作为标注语料。同样基于线性链条件随机场模型,但结合汉语的特点,我们提出了更多的语言特征,取得了积极的效果。   第四,在汉语实体关系抽取任务中,我们提出将实体关系抽取划分为包含关系抽取和非包含关系抽取两个子任务。针对这两种关系的差异,我们采取不同的适合各自特点的句法特征集,尤其是对非包含关系,我们引入语义信息,借鉴语义角色标注的特征,以提高汉语实体关系抽取系统的性能。
其他文献
压缩查询是近几年兴起的一种文本模式查找技术,它是通过查找压缩文本实现初始文本的查找。在最初的时候,压缩查询是在线的,也就是在压缩文本上直接执行模式子串的匹配操作。对于
学位
随着计算机网络承载业务的多样化,如何提高网络服务质量已经成为网络研究的热点。本文着眼于改善二层域中各种业务的服务质量,围绕以太网交换机,研究了二层域中各种服务质量保证
学位
学位
USSP(Universal Security Support Platform)是计划在Linux和Windows操作系统平台上开发的一个能提供完整信息安全服务的通用安全支撑平台,它将为我国电子政务、电子商务等关
随着我国电子政务建设的迅速发展,电子表单系统作为电子政务应用系统中的关键环节也随之迅速发展。目前,国内外存在多种电子表单系统。这些表单系统有些已经应用于电子政务系统
学位
笔式用户界面是当今计算机用户界面技术研究的热点之一,它的界面隐喻基于人们熟悉的纸笔工作方式,具有自然、高效的特点。纸笔所具有的独一无二的特性以及长时间所形成的使用习
学位
随着网络条件的不断改善,大舰模流媒体数据直播服务得到广泛的部署和应用,然而随着网络应用用户规模的不断扩大,单纯地依靠优化服务器组织结构,提高服务器端扩展性的解决方案已经
符号执行技术是一种动态程序分析技术,具有代码覆盖率高和不会产生误报的优点。将符号执行技术应用于漏洞检测领域时,其追求代码覆盖率的路径探索过程反而会降低漏洞检测的效
异构数据库相关技术是数据库研究领域的一个热点,在Internet迅速发展的今天,如何将地理上分布、管理上自治、模式上异构的各种不同的数据库与各类应用系统进行有效的连接是一个
因为目前常用的视频编码国际标准如MPEG-x以及H.26x都采用了基于块的混合编码技术,使得生成的码流对信道误码非常敏感,因而,为了在Internet和无线网络等易错信道中进行高效的视
学位