论文部分内容阅读
随着语义Web技术的不断发展和应用,万维网上充满了大量可读取、可被机器理解和处理的RDF数据,RDF数据关键字查询问题的研究已经成为当今语义Web研究的一个热点。无论是终端用户还是应用系统,都有着对RDF数据进行查询的需求。但是,RDF数据的标准查询语言SPARQL对于普通用户来说过于复杂,用户既不了解SPARQL查询的语法和语义,更没有掌握待查询的RDF数据的模式信息。因此,本文提出一种基于查询转换的方法来实现RDF数据关键字查询,通过将关键字查询转换为SPARQL查询,借助现有的比较先进的SPARQL搜索引擎对RDF数据进行查询。另外,本文提出两阶段查询优化方法可以对生成的SPARQL查询进行处理,以提高查询执行的效率。本文的主要贡献包括以下几个方面:
(1)提出了一种基于压缩实体摘要图的RDF数据关键字查询方法。从大规模的RDF数据中,提取实体及实体关联,为了方便查询转换,将实体的类型封装在实体节点当中,从而建立了一个压缩实体摘要索引。利用双向搜索算法,在这个压缩实体摘要索引上搜索包含所有关键字实体的子图,即找到对应的查询变量之间的关系,然后将这些子图转换成SPARQL查询,最后利用现有的SPARQL搜索引擎进行RDF数据的查询。
(2)提出了一种基于实体类型关系摘要的RDF数据关键字查询方法。通过概括出RDF数据实体类型之间的关系,定义了一种面向实体类型关系的摘要索引,从转换的目标对象SPARQL的角度出发,该摘要索引的构建利用了SPARQL1.1的属性路径操作符,包括谓语路径操作符、可选路径操作符“|”以及序列路径操作符“/”等。该索引不仅使关键字查询向SPARQL查询的转换更为简单、方便及高效,而且该摘要索引弥补了现有的用于查询转换索引的缺陷,能够完整地概括出RDF数据中所有实体类型之间的关系。最后,将在此摘要索引上找到的包含所有关键字实体的类型关系的top-k子图,并转换成SPARQL查询,利用现有的SPARQL搜索引擎进行RDF数据的查询。
(3)提出了一种利用多索引来实现RDF数据关键字的查询方法,事先在RDF数据上建立多个索引,用于定位关键字到指定的实体的关键字倒排索引和用于搜索top-k子图的r-半径领域索引、r半径领域内的最短路径索引以及用于子图向SPARQL转换的r半径领域内的最短属性路径索引。通过这些索引能够快速地进行关键字查询向SPARQL查询转换。虽然索引的存储开销较大,不过利用“空间换时间”的思想,很大程度地提高了查询效率。最后,利用现有的SPARQL搜索引擎对RDF数据进行查询。另外,对论文提出的三种不同的RDF数据关键字查询方法进行了分析和比较,分别比较了三种方法用于关键字查询向SPARQL查询转换服务的索引、关键字索引、top-k子图的搜索算法以及用于辅助图搜索的索引结构等。
(4)针对本文生成的SPARQL查询本身所具有的特点,提出了一个两阶段的SPARQL查询处理方法对生成的SPARQL查询进行优化处理。第一阶段,把SPARQL查询中含有相同变量的联结划分为一块,通过计算每块内选择度来重新排列三元组模式的联结顺序。第二阶段,利用属性路径索引对剩余的联结进行中间结果过滤。不但利用了RDF图中的属性路径,而且还考虑了三元组模式中的选择度问题,大幅度地减少了查询在联结过程中产生的中间结果数量,从而改善了查询质量,提高了查询效率。
(1)提出了一种基于压缩实体摘要图的RDF数据关键字查询方法。从大规模的RDF数据中,提取实体及实体关联,为了方便查询转换,将实体的类型封装在实体节点当中,从而建立了一个压缩实体摘要索引。利用双向搜索算法,在这个压缩实体摘要索引上搜索包含所有关键字实体的子图,即找到对应的查询变量之间的关系,然后将这些子图转换成SPARQL查询,最后利用现有的SPARQL搜索引擎进行RDF数据的查询。
(2)提出了一种基于实体类型关系摘要的RDF数据关键字查询方法。通过概括出RDF数据实体类型之间的关系,定义了一种面向实体类型关系的摘要索引,从转换的目标对象SPARQL的角度出发,该摘要索引的构建利用了SPARQL1.1的属性路径操作符,包括谓语路径操作符、可选路径操作符“|”以及序列路径操作符“/”等。该索引不仅使关键字查询向SPARQL查询的转换更为简单、方便及高效,而且该摘要索引弥补了现有的用于查询转换索引的缺陷,能够完整地概括出RDF数据中所有实体类型之间的关系。最后,将在此摘要索引上找到的包含所有关键字实体的类型关系的top-k子图,并转换成SPARQL查询,利用现有的SPARQL搜索引擎进行RDF数据的查询。
(3)提出了一种利用多索引来实现RDF数据关键字的查询方法,事先在RDF数据上建立多个索引,用于定位关键字到指定的实体的关键字倒排索引和用于搜索top-k子图的r-半径领域索引、r半径领域内的最短路径索引以及用于子图向SPARQL转换的r半径领域内的最短属性路径索引。通过这些索引能够快速地进行关键字查询向SPARQL查询转换。虽然索引的存储开销较大,不过利用“空间换时间”的思想,很大程度地提高了查询效率。最后,利用现有的SPARQL搜索引擎对RDF数据进行查询。另外,对论文提出的三种不同的RDF数据关键字查询方法进行了分析和比较,分别比较了三种方法用于关键字查询向SPARQL查询转换服务的索引、关键字索引、top-k子图的搜索算法以及用于辅助图搜索的索引结构等。
(4)针对本文生成的SPARQL查询本身所具有的特点,提出了一个两阶段的SPARQL查询处理方法对生成的SPARQL查询进行优化处理。第一阶段,把SPARQL查询中含有相同变量的联结划分为一块,通过计算每块内选择度来重新排列三元组模式的联结顺序。第二阶段,利用属性路径索引对剩余的联结进行中间结果过滤。不但利用了RDF图中的属性路径,而且还考虑了三元组模式中的选择度问题,大幅度地减少了查询在联结过程中产生的中间结果数量,从而改善了查询质量,提高了查询效率。