基于分类的图索引方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:tandr001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着图结构在复杂数据建模方面的广泛应用,图数据库技术得到了快速发展。如何从图数据库中快速检索数据已经成为一个研究热点。在图查询中,子图匹配查询和相似性查询是两种重要的查询方式。子图匹配查询是指返回数据库中包含查询图的图集合,而相似性查询是返回数据库中与查询图相似的图集合。处理子图匹配查询和相似性查询时,分别需要进行子图同构验证和图相似度计算,但子图同构验证和图相似度计算已经被证明是NP难题。为了快速有效地返回图查询的结果,目前主要采用“分类过滤+验证”两阶段处理机制。在这种机制中,首先预定义分类过滤规则,将图数据库分类,然后提取查询图特征,找到结果可能出现的类别,从而生成规模较小的候选集,最后对候选集进行子图同构验证或者图相似度计算得到最终的结果集。其中,人们可以根据分类过滤规则构造合适的图索引来提高查询效率。现有的用于处理子图匹配查询的图索引方法中,一般都是在查询前离线建立图索引,而忽视了查询图序列在时间上的相关性,容易出现冗余查询;已有的相似性查询的图索引方法主要集中在减少相似度的计算时间,而并没有提出一种缩小候选集规模的方法,仍需扫描整个数据库才能得到结果集。针对以上子图匹配查询问题,本文提出了一种双索引的方法。其主要思想是:首先采用传统方法,基于图数据库离线建立图索引DIndex(Database Index);然后在查询过程中,在线实时建立图索引HIndex(History Index)。HIndex中存放的是根据查询热度得到的一组频繁查询结构。这样当某些图被重复查询时,可以首先搜索HIndex,如果搜索成功,即可直接得到结果集,从而避免子图同构验证;如果搜索失败,则可按照传统方法搜索基于图数据库建立的索引DIndex,得到候选集。为了缩小相似性查询问题中候选图的规模,本文提出了一种多层过滤方法,并针对于不同的过滤层,分别提出了相适应的索引结构。首先将查询图的规模信息和顶点标签信息与图数据库中的图进行比较,将高偏差的图剔除;然后利用本文提出的基于子图向量异或乘积的计算方法得到一个有序集合,使得可能满足查询要求的图聚集在该集合的前半部分:之后本文采用类似二分查找的方式,通过计算映射距离,动态调整得到一个合适的下标值,使得可能满足要求的图都出现在该下标的左侧,这样就可以将该下标左侧的图直接加入到候选集;为了提高结果集的查全率,有序集合中出现在下标右侧的图也有一部分被选入候选集。最后,通过计算候选集中的图编辑距离,返回满足查询要求的图集合。最后,本文通过实验验证了双索引方法和多层过滤方法在子图匹配查询和图相似性查询中的有效性。在子图匹配查询的实验中,本文采用不同密度的查询序列进行查询,得到双索引方法和传统单索引方法以及无索引方法在不同情况下的平均子图同构次数。分析实验结果发现,随着查询密度的增大,双索引方法中子图同构验证的次数与已有的两种经典方法相比明显减少,从而提高了查询效率。在相似性查询实验中,本文分别从索引建立时间,索引大小以及索引性能以及查全率四个方面将多层过滤方法与已有的Closure-Tree方法进行对比。实验结果表明,多层过滤方法在索引建立时间、索引大小和查询时间上都优于Closure-Tree方法的同时,又能保持95%左右的查全率。
其他文献
随着互联网的飞速发展,人们的生活变得越来越方便:但是另一方面网络的不安全性也时时困扰着人们,病毒、木马、黑客等几乎无孔不入,它们在互联网上肆意扩张,侵入人们的电脑、窃取人
人脑是复杂的非线性动力学系统,脑科学研究已成为21世纪最重要的研究热点之一。自上世纪20年代脑电(EEG)被发现以来,人类便开始利用脑电对大脑进行无创伤性研究,从而脑电在许多
无线传感器网络是由具有感知、通信、计算能力的大量微小传感器节点构成的自组织分布式网络系统,它能够根据环境自主完成指定的感知任务。无线传感器网络的兴起改变了人类与自
随着软件逐渐被应用到国家、社会的更广、更深的领域中,随之而来的软件安全性问题也不容忽视。重要领域、行业的关键软件的安全性问题尤为迫切,关键软件的安全漏洞让国家和社会
在三维计算机动画中,把人体作为其中的角色一直是研究人员感兴趣的目标,虽然计算机动画在许多领域占据着越来越重要的地位,但人体动画的许多问题仍未能很好地解决。原因就在
近年来,通过并行处理的设计思想,利用现有的设备集群工作来解决入侵检测系统能力不足的方法成为了一种热门技术。本文正是基于这种思想,利用现有的主机构成分析器节点,运用软件设
随着World Wide Web(简称WWW,Web)的迅速发展,Web上的信息与日俱增,互联网已成为人们获取信息的重要来源。但是,由于因特网的广泛性和开放性,在因特网上发布信息极为容易而且
随着信息技术的发展,数据挖掘技术得到了广泛的关注,这促使业界人士对该项技术进行更为深入的研究。在数据挖掘技术中有很多研究领域,关联规则数据挖掘就是其中一个重要的研
无线传感器网络是由大量的传感器节点以自组织的方式形成的多跳网络,路由协议是无线传感器网络中最基本、最重要的部分之一。现有的路由协议主要针对静态网络,无法应用到具有移
微震作为监测预警矿井重大动力灾害的一种区域性监测手段,具有谱成分丰富、频带较宽的特性。在冲击地压灾害发生前有很多微震前兆信息,这些信息蕴含在灾害发生前相当长一段时期