开放领域下复杂文本的关系抽取

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:coding_key
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取是用于从平面文本中抽取实体之间关系的一种技术。其常常被用于生成RDF三元组形式的语义数据。本文主要关注中文的关系抽取。中文的词和短语常常会在语义或者语法上有较大的歧义,因此中文自然语言处理工具常常不足以用于处理较长或者结构较为复杂的句子。不幸的是在真实的语言环境下,这种情况非常普遍。为了突破自然语言处理工具难以很好的处理复杂文本导致的瓶颈,本文提出了句子卷曲来增强关系抽取系统的输入,同时提供了一种基于统计的方法对候选的关系进行排序从而决定所要生成的关系。另一方面,本文也探讨了使用关系型数据库来帮助决定关系的主语、宾语成分是否可靠。同时本文也提出了词权重,来衡量词对关系抽取的贡献,并结合了关键句抽取方法来减少抽取的时间开销,并增加抽取关系与主题的相关性。本文在真实数据以及中文树库(CTB)、中文依赖树库(CDTB)上对方法的各个部分进行了实验和验证,证明了本文的方法能显著增强各种不同的关系抽取系统的表现,并只额外开销了一个合理的时间。
其他文献
本文实现了一个通过把电极置于前额的采集眼电信号的新方法并且用采集到的前额眼电信号进行人的疲劳检测,然后证明了这一方法的正确性。与传统的将电极置于眼睛四周的采集眼电
蓝牙技术规范提供了一种开放的无线语音和数据通信标准,是移动通信技术和计算机网络技术结合的产物。蓝牙作为一种低成本、低功耗的无线接入方式,在现代通信技术和应用发展中有
本文的研究背景是中山大学软件研究所与广州威腾网络科技有限公司合作开发的数据备份与恢复系统NetBunker。本文分析和比较了目前国内外著名备份管理系统优缺点。针对此类产
数据挖掘是指从大型数据库的数据中提取出隐含的、事先未知的、潜在有用的信息的非平凡过程。而关联规则是数据挖掘中一个重要的技术,也是在无指导学习系统中挖掘本地模式的最
工程图学远程智能考试系统是通过Internet/Intranet来实现网上考试,是现代教育技术的一个具体实现,具有很重要的现实意义。 本论文在广泛调研和查阅大量文献的基础上,系统
单芯片多处理(ChipMulti-ProcessingorChipMulti-Processor,CMP)通过在单块芯片上集成多个处理单元,在芯片内部共享缓存,提高了缓存利用率,简化了芯片设计的复杂度。但是,在CMP结
带时间窗和容量约束的车辆路线问题(VRPTW)是在物流业中发生的一个重要问题。这个问题的目标是在不破坏客户时间窗要求和车辆不超载的情况下,以最小的成本代价,寻找一个最好的
Gnutella网络是分布P2P模式的典型代表,由于它具有完全分布式和高度动态性的特点,可以有效消除单点瓶颈、节点快速定位以及获取有效信息,增强了网络的鲁棒性。并且没有像结构化P
随着网络越来越普及,传输的信息容量越来越大,其格式也越来越复杂。XML自从诞生以来,因为它具备用户自定义标签、内容和显示分离等特点,所以发展迅猛,已经成为当今一门热门的技术
随着计算机网络迅速发展,基于分布式应用的实时系统越来越普遍,在信息家电、医疗仪器、智能汽车、工业控制以及通信设备等各个领域,实时需求无处不在,如何提供满足要求的实时