论文部分内容阅读
随着RDF越来越被广泛利用于知识管理领域,一个有着较大规模的RDF知识库就显得越来越重要。目前,大多数RDF知识库都是通过抽取和挖掘Web上的数据来创建以及扩大的。它们的数据源局限在社会百科网站及社会标签网络,比如Wikipedia,WordNet,IMDB等等。这些RDF数据的精度也无法得到有效保证。为了能有效地利用RDF进行知识管理方面的工作,需要扩大目前RDF知识库的规模并提高目前RDF知识库的精度。 本文构建了一个可以从关系表数据中抽取实体并将它们集成到RDF知识库中的原型系统——ITEM。该原型系统可以高效并准确地计算关系表和RDF知识库之间的模式匹配,并通过该模式匹配从关系表中抽取RDF知识库中不存在的实体,将它们集成到原RDF知识库中;抽取RDF知识库中己存在的实体,以此去更新原RDF知识库中不准确的实体数据。因此,ITEM通过利用高质量的关系表数据,可以有效地增大RDF知识库的规模,并提高RDF知识库的质量。 本文提出了计算关系表和RDF知识库之间的模式匹配的算法,该算法只会利用关系表的元组实例信息,并不需要模式信息。对于从Web上抽取而来因此缺少模式信息的关系表来说,这点是非常有意义的。本文还将计算模式匹配的问题有效地转换成为已知的两个经典问题来求解:最大加权二分图匹配以及最大加权独立集。 本文在寻找元组在RDF知识库中的匹配实体时,通过建立一种基于单词的倒排索引,对于每个元组,可以使用关键词搜索算法来有效地过滤理论上不是匹配的实体,从而使算法的性能有了很大的提升。 本文在真实的数据集上进行了实验,实验结果表明ITEM原型系统在抽取实体时有着高精度和高效率。