论文部分内容阅读
信息化时代的到来导致了海量数据和信息的产生、传递、处理,而面对如此大量的信息仅仅靠人来进行数据的过滤和筛选是无法达到快速找到所需数据的目的的。在这种情况下,自动化的信息抽取技术得以产生和快速发展,实体关系抽取作为信息抽取的一个重要组成部分,得到越来越多的研究和应用。实体关系抽取也称实体关系挖掘,是指从无结构或半结构化文本中确定实体语义关系的过程[26]。实体关系抽取技术根据涉及到的实体个数可以分为二元实体关系抽取和多元实体关系抽取[4]。而二元关系是在现实社会存在最普遍的类型,也是解决多元关系的基础,所以近年来二元关系抽取技术得以快速的发展。然而,随着对实体关系抽取技术的研究,一些研究者发现单纯地抽取实体关系并不能满足所有需求,因为人们所关心的关系并不是静态的,而是会随着时间的推移发生变化甚至消失的动态关系,所以已经有研究者把研究的重点转向了对关系属性特别是时间属性的研究。目前,对关系的时间属性的研究工作主要集中在英文语料上。英语所特有的语法特点为研究者研究关系时间属性提供了便利,如英语语法中常用的表示时间信息的词before, after, during, until等都有助于在英文语料上的时间属性研究。而在中文语料的情况下,由于中文语法的复杂性,并没有如此具有代表性的时间表述方式,所以在英文语料上的研究成果并不能直接应用于中文环境。同时,目前还没有人从关系不成立的角度来研究其时间属性。因此本文将研究中文环境下的二元实体关系的时间属性,主要工作包括:1.在关系抽取技术的基础上,结合时间推理方法,提出了一种获取关系元组正时间点的方法。利用该方法可以从网络中获取支持关系元组的多个时间点,为其时间属性研究打下基础。2.通过构造关系元组的负特征共现句挖掘机,提出了一种基于特征的关系元组负时间点获取方法。利用该方法可以从网络中获取表示关系元组不成立的多个时间点。3.对由正负时间点推理时间区间的方法进行了初步的探索,并提出了一种简单的推理算法。利用该算法可以在关系元组正时间点和负时间点的基础上形成关系元组的正时间区间、负时间区间和过渡时间区间。最后,本文对所提出的算法进行了性能测试,实验结果表明:本文提出的“关系元组正时间点获取算法”能有效地获取关系元组的正时间点,其准确率达到90%;“关系元组负时间获取算法”能有效地获取关系元组的负时间点,其准确率达到88%;“关系元组时间区间获取算法”的准确率达到85%。由此可见,本文提出的算法能从不同的角度对关系元组的时间属性进行研究。