基于查询转换的RDF数据关键字查询技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:jack88698
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语义Web技术的不断发展和应用,万维网上充满了大量可读取、可被机器理解和处理的RDF数据,RDF数据关键字查询问题的研究已经成为当今语义Web研究的一个热点。无论是终端用户还是应用系统,都有着对RDF数据进行查询的需求。但是,RDF数据的标准查询语言SPARQL对于普通用户来说过于复杂,用户既不了解SPARQL查询的语法和语义,更没有掌握待查询的RDF数据的模式信息。因此,本文提出一种基于查询转换的方法来实现RDF数据关键字查询,通过将关键字查询转换为SPARQL查询,借助现有的比较先进的SPARQL搜索引擎对RDF数据进行查询。另外,本文提出两阶段查询优化方法可以对生成的SPARQL查询进行处理,以提高查询执行的效率。本文的主要贡献包括以下几个方面:
  (1)提出了一种基于压缩实体摘要图的RDF数据关键字查询方法。从大规模的RDF数据中,提取实体及实体关联,为了方便查询转换,将实体的类型封装在实体节点当中,从而建立了一个压缩实体摘要索引。利用双向搜索算法,在这个压缩实体摘要索引上搜索包含所有关键字实体的子图,即找到对应的查询变量之间的关系,然后将这些子图转换成SPARQL查询,最后利用现有的SPARQL搜索引擎进行RDF数据的查询。
  (2)提出了一种基于实体类型关系摘要的RDF数据关键字查询方法。通过概括出RDF数据实体类型之间的关系,定义了一种面向实体类型关系的摘要索引,从转换的目标对象SPARQL的角度出发,该摘要索引的构建利用了SPARQL1.1的属性路径操作符,包括谓语路径操作符、可选路径操作符“|”以及序列路径操作符“/”等。该索引不仅使关键字查询向SPARQL查询的转换更为简单、方便及高效,而且该摘要索引弥补了现有的用于查询转换索引的缺陷,能够完整地概括出RDF数据中所有实体类型之间的关系。最后,将在此摘要索引上找到的包含所有关键字实体的类型关系的top-k子图,并转换成SPARQL查询,利用现有的SPARQL搜索引擎进行RDF数据的查询。
  (3)提出了一种利用多索引来实现RDF数据关键字的查询方法,事先在RDF数据上建立多个索引,用于定位关键字到指定的实体的关键字倒排索引和用于搜索top-k子图的r-半径领域索引、r半径领域内的最短路径索引以及用于子图向SPARQL转换的r半径领域内的最短属性路径索引。通过这些索引能够快速地进行关键字查询向SPARQL查询转换。虽然索引的存储开销较大,不过利用“空间换时间”的思想,很大程度地提高了查询效率。最后,利用现有的SPARQL搜索引擎对RDF数据进行查询。另外,对论文提出的三种不同的RDF数据关键字查询方法进行了分析和比较,分别比较了三种方法用于关键字查询向SPARQL查询转换服务的索引、关键字索引、top-k子图的搜索算法以及用于辅助图搜索的索引结构等。
  (4)针对本文生成的SPARQL查询本身所具有的特点,提出了一个两阶段的SPARQL查询处理方法对生成的SPARQL查询进行优化处理。第一阶段,把SPARQL查询中含有相同变量的联结划分为一块,通过计算每块内选择度来重新排列三元组模式的联结顺序。第二阶段,利用属性路径索引对剩余的联结进行中间结果过滤。不但利用了RDF图中的属性路径,而且还考虑了三元组模式中的选择度问题,大幅度地减少了查询在联结过程中产生的中间结果数量,从而改善了查询质量,提高了查询效率。
其他文献
该文介绍了一种用于高功率CO激光器的新的功率智能测控系统.功率采样单元主要由一具有稳定低透过率的全反球面介质镜和一薄膜型热电偶探测器组成.该单元将功率信号转化为探测器上电压信号实现功率采样.功率测控单元主要通过编辑实现对功率的检测并输出控制信号,通过与外部电路的接口,使功率在要求的范围内保持稳定.PLC通过对功率采样信号的处理,将其转化为实测的功率值.并与要求的功率进行比较,再采用一定的算法,输出
学位
文章首先介绍了射频激励CO激光器二十多年的发展历史及研究现状.接着从原理入手,给出射频激励CO激光器放电理论模型及放电腔的等效阻抗计算方法,分析了射频激励频率对激光器工作特性的影响,并介绍了射频激励CO激光器功率控制原理.然后,以25W射频激励CO激光器为例,论述了射频电源各部分的设计方法,给出了采用新型高频大功率晶体管放大器模块及以微带线作为阻抗匹配网络的新型电源设计方案,并对采用该设计电源的射
学位
随着数字图书馆等多媒体数据库的广泛应用,对多媒体数据库,特别是图像数据库的管理和查询成为制约这些应用的瓶颈,因此基于内容的图像检索成为人们研究的热点.由于基于内容的图像检索涉及到图像识别和多媒体数据库两个方面的知识.因此该文首先从图像识别出发,研究基于颜色和纹理的特征提取,然后从多媒体数据库出发,研究了面向对象的多媒体数据模型,最后设计了一个图像检索系统用来实现前面提出的算法.该文的重点在于:1.
学位
云计算作为一种新的高速网络计算服务受到越来越多的青睐,云计算技术广泛应用于通讯、交通、金融、制造等领域。通过实施任务的最优调度,充分利用现有资源实现任务的最快完成,是云计算中任务调度算法研究的目标。随着云计算的高速发展,云系统底层技术构架发生了明显变化,云系统结构越来越复杂,资源节点数量越来越多,不同云之间的差异性越来越明显。同时,用户数量多、行业普及、服务需求多、时效性期望高、数据海量且多样化等
学位
近年来,随着通信和位置感知技术的发展,基于位置的服务(Location Based Service,LBS)需求不断增加。位置预测是LBS的研究内容之一,在广告服务、位置导航等领域具有重要的应用。已有的位置预测方法多通过建立Markov位置预测模型和频繁轨迹挖掘来实现,尽管此类模型和方法可以较好地适用于GPS轨迹数据,可以有效地用于位置预测,但却存在模型阶数不好确定,轨迹挖掘过程只涉及轨迹数据本身
学位
近年来,伴随着互联网科技的迅猛发展,得益于低廉的维护和管理成本、可伸缩的软硬件配置和随时随地的便捷访问,越来越多的企业、组织、科研机构和个人将数据外包到云服务器。然而凡事具有两面性。在人们享受云存储带来的低成本和高效率的同时,数据安全性的问题随之而来。对于外包数据,用户失去了物理上的控制权。尽管云服务提供商会对数据提供一般性的保护,但此类手段完全依赖于厂商的信誉和技术水平,用户毫无掌控权。除此以外
学位
目标的位置与运动轨迹是无线传感器网络的基础信息,是基于位置服务实现的基础。卫星定位系统为室外环境下的目标定位与轨迹跟踪问题提供了解决方案。据统计,人类有80%以上的时间是在室内度过的,提供高精度的室内位置或者轨迹,是许多应用的基础。卫星无线信号会受到建筑物、墙壁等障碍物的严重影响,不能有效地在室内环境中工作。无线网络定位与轨迹跟踪问题涉及到计算机、通信、自动化与物理等多个学科的相关研究领域,为了提
随着互联网技术发展,信息的总量和增长速度严重超出了个人或传统的数据管理和分析方法所能接受、处理和有效利用的极限,引起信息过载问题。其中大多数信息过载问题源于非结构化文本数据,例如,社交媒体文本、网页、新闻文档以及学术论文等。因此,从大量文本数据中自动发现知识的文本挖掘和分析技术引起了学术界和工业界极大的研究兴趣和热度,成为大数据时代数据挖掘和自然语言处理领域的核心研究问题。  由于短语是自然、低歧
学位
行人检测技术应用于计算机视觉的多个领域,如视频监控、动作行为分析、汽车辅助驾驶、机器人控制等,具有广泛的应用前景和研究价值。多年来,行人检测技术取得了一定的研究成果,但由于行人较大的类内差异和场景的复杂性,仍然存在很多未很好解决的问题,需要进一步的研究。本文进行行人检测算法的研究选择了预处理环节、基于部位建模的分类器和自适应场景的模型推荐三个角度,并提出了改进方案。本文的主要研究工作和成果体现在以
学位
近年来,随着众多社会媒体平台的诞生和发展,其作为一种在线用户交互的工具,正在越来越深刻地改变着人们的工作、生活和交流方式,同时也生成了海量的用户信息。广大用户在社会媒体中所生成的大量文本文件,已经成为大数据研究领域最具代表性的数据资源之一,对这些用户生成的文本数据进行研究有着广泛的学术和商业价值。社会媒体文本研究作为一种对社会媒体中大规模数据在不同应用上进行分析、处理、归纳和推理的信息处理技术,近
学位