论文部分内容阅读
随着网络技术的日新月异,Web上的信息量也在飞速增长。Web已经成为一个巨大的数据源,拥有着海量的数据。这些数据中蕴含着大量有价值的实体事件,对人们的工作和社会的生产具有举足轻重的作用。对Web上的实体事件进行充分的挖掘和分析,能够获取丰富的知识,在市场情报分析、舆情分析、电子商务、商业智能等领域具有十分重要的意义。但是Web是一个自由和开放的空间,Web实体事件来自不同的数据源,Web数据源具有自治性强的特点,发布信息相对随意,再加上自然语言也具有自由灵活的特点,同一实体事件采用不同的表述方式是一种极其常见的现象。这给实体事件的发现分析工作带来了极大的困难,也给搜索信息的用户和决策者带来了很大的困扰。为了让用户获得简洁、准确、无重复的实体事件信息,就需要对来自不同数据源的实体事件表象进行重复检测,这也是Web实体事件发现研究领域的重要子任务。要实现以上目标,就必须解决以下两个关键问题:(1)实体事件表象的重复检测。对来自不同数据源的实体事件表象进行重复检测,识别同一实体事件的多种表象,即将来自不同数据源的表意相同、表达方式不同的实体事件表象识别出来。(2)实体事件的重复检测。实体事件是由重复的实体事件表象组成的集合表示的,经过实体事件表象的重复检测之后,实体事件之间仍然可能存在重复,需要进一步识别实体事件之间的重复现象。本文对不同的实体事件表象、实体事件之间的关系进行了研究,以Web实体事件重复检测为目标,针对以上两个待解决的关键问题展开研究,探索了实体事件表象的重复检测和实体事件的重复检测两方面的问题,主要工作与研究内容如下:(1)针对实体事件表象的重复问题,根据商业领域中,同一时间、同一地点,一个特定的主体只能参加一个活动这一个规律,本文提出了“基于动态权重的线性组合方法”。将实体事件表象对的时间、地点、主体三个主要属性,以及其他辅助属性进行相似度计算,并利用属性相似度计算出动态权重,然后利用各个属性的相似度得分和动态权重求出实体事件表象对的相似度得分。最后将实体事件表象对的相似度得分与特定的阈值进行比较,对实体事件表象对是否重复做出判断。实验结果表明,该方法相对于其他方法能够获得较高的F-measure值,有效的解决了实体事件表象的重复问题。(2)实体事件由重复的实体事件表象组成的集合表示,不同的实体事件之间也可能存在重复。因此,在基于动态权重的线性组合方法的基础之上,本文进一步提出了两种实体事件重复检测的方法:基于实体事件属性的重复检测方法和基于实体事件关系的重复检测方法,用以解决不同实体事件之间的重复问题。第一种方法是一种直接的重复检测方法,直接计算实体事件之间的相似度;第二种方法以第一种方法为基础,是一种间接的重复检测方法,它根据实体事件之间的关系,将待比较实体事件的关联事件集进行比较,进而得出两个待比较实体事件之间的关系相似度。