【摘 要】
:
中文命名实体的语义关系抽取是关系抽取的一个重要研究方向。由于中文文本具有不同于英文文本的一些特有的语法特点,中文命名实体的语义关系抽取研究发展一直较为缓慢。中文
论文部分内容阅读
中文命名实体的语义关系抽取是关系抽取的一个重要研究方向。由于中文文本具有不同于英文文本的一些特有的语法特点,中文命名实体的语义关系抽取研究发展一直较为缓慢。中文文本多长句,长句中往往又包含着多个命名实体,该语法特点使得中文命名实体的语义关系抽取变的更加的困难。本文将着重在这方面进行研究。首先,论文简单介绍了课题的研究背景、概述了有关语义关系抽取研究的历史和发展状况、并重点阐述了有关中文命名实体语义关系抽取的几种有代表性的方法。接着,针对已有方法在处理复杂关系样例的实体关系抽取上的不足,本文提出了基于依存树的中文命名实体语义关系抽取的方法。该方法结合中文文本的语法特征,提出了七条启发式规则来提取实体间的关系特征,并采用加入模式权重因子的语义序列核函数和KNN机器学习算法联合构造分类器的方法来分类和标注关系的类型。最后,根据上述研究,本文设计并实现了基于依存树的中文命名实体语义关系抽取(CERE-DT)系统,并在此系统的基础上,利用网上收集的测试集对该系统的抽取效果进行了测试,同时采用信息抽取领域的准确率、召回率和F-测试值对实验数据进行了统计分析。从和已有方法的对比实验结果来看,此方法具有良好的效果。
其他文献
在面向服务的体系架构中,Web服务作为一种分布式计算模型,在各领域应用集成中扮演着重要角色,如何能够对应用系统进行有效的集成,从而形成更加灵活的应用系统是当前Web服务领
随着信息安全技术的发展,当今在信息安全领域中Rootkit变得越来越重要,Rootkit技术正成为信息安全领域最大的挑战之一,越来越多的研究人员开始涉足Rootkit技术。该技术最早被
随着面向对象技术和分布式对象技术的应用,软件复用技术得到迅猛发展。在当前的软件复用技术领域中,基于组件的软件复用技术被视为较好的软件应用开发技术。论文对软件复用技
电容层析成像(Electrical Capacitance tomography,ECT)技术是20世纪80年代中后期发展起来的一种过程层析成像技术(Process Tomography,PT),具有成本低,快速响应及测量的非侵入性
政策最早以规则、策略、协议的形式应用于计算机及网络的各个领域,包括数据库安全、分布式网络和移动网技术等领域。然而,从政策管理的力度来说,它们只实现了较低层次的政策
远程医疗是通过信息和通信技术应用于远距离健康活动和服务的系统。它通过数据、文字和图像资料的远距离传送,实现医院间的远程会诊。在整个会诊过程中,患者文件的组织管理、传
人脸检测问题研究具有很重要的意义,可以应用到人脸识别、新一代的人机界面、安全访问和视觉监控以及基于内容的检索等领域。视频信号是人类接触的最主要媒体,人类接受的外界
在逆向工程应用中,由于样件局部遮挡或者测量手段的限制,通过测量所获得的原始点云数据往往存在数据缺失而形成孔洞。因而在孔洞点云数据的曲面重构中,需要对孔洞进行修补以
随着互联网的飞速发展及企业信息化水平的提高,数据的产生量和积累量呈指数增长,如何利用好、管理好海量数据,已成为影响企业决策,驱动价值增长的重要环节。MapReduce模型作为大
RFID(Radio Frequency Identification)射频识别技术,是一种非接触式的自动识别技术,它通过射频信号自动识别目标物体并获取目标数据信息,识别工作无须人工干预,可在各种恶劣