论文部分内容阅读
关系抽取是用于从平面文本中抽取实体之间关系的一种技术。其常常被用于生成RDF三元组形式的语义数据。本文主要关注中文的关系抽取。中文的词和短语常常会在语义或者语法上有较大的歧义,因此中文自然语言处理工具常常不足以用于处理较长或者结构较为复杂的句子。不幸的是在真实的语言环境下,这种情况非常普遍。为了突破自然语言处理工具难以很好的处理复杂文本导致的瓶颈,本文提出了句子卷曲来增强关系抽取系统的输入,同时提供了一种基于统计的方法对候选的关系进行排序从而决定所要生成的关系。另一方面,本文也探讨了使用关系型数据库来帮助决定关系的主语、宾语成分是否可靠。同时本文也提出了词权重,来衡量词对关系抽取的贡献,并结合了关键句抽取方法来减少抽取的时间开销,并增加抽取关系与主题的相关性。本文在真实数据以及中文树库(CTB)、中文依赖树库(CDTB)上对方法的各个部分进行了实验和验证,证明了本文的方法能显著增强各种不同的关系抽取系统的表现,并只额外开销了一个合理的时间。