大规模多维数据集合的高效查询方法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sswang111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络应用中内容主导的系统需要管理海量的多维数据,比如新闻网页中的标题、图片、作者、时间等多维信息;拼接成网页地址的多个字符串片段;视频分发系统中描述一个片段的多个特征等。大规模多维数据通常是以集合的形式保存在互联网系统中的。因此,需要一种表示多维集合元素的数据结构以及判断元素是否属于某个集合的算法,也就是多维集合的元素表示与存在性查询算法。类似的解决方案除了有低时间和空间复杂度的要求,而且还要能够支持灵活的查找方式,并有效处理高相关查询。  本文的研究工作采用了一种概率型数据结构来表示多维集合的元素,这种刻画能够有效地节省空间,并保存同一个元素不同属性之间的关联信息,从而实现快速准确的查询。在此基础上,提出了一种能够快速准确地支持多维集合中的元素表示与存在性查询的数据结构和相关算法。  我们提出的大规模多维数据查询算法(乘积型布鲁姆过滤器Cartesian-join ofBloom Filters,简称CBF)不仅能够较好的处理完整查询、不完整查询和相关查询,而且还能够有较低的时间复杂度和空间复杂度。相比传统的基于表的解决方案,CBF能够明显节省存储空间;与标准布鲁姆过滤器比较,CBF能够使用同样的空间支持多维元素的完整查询,同时还能额外支持提供不完整信息的元素存在性查询。  论文从理论上推导出了CBF的虚警率的解析表达式和最优哈希函数个数与元素个数及存储空间的关系,证实了CBF的虚警率具有与SBF基本相同的形式。从理论上分析了算法的时间复杂度和空间复杂度,CBF的时间复杂度与维数成正比,与集合元素个数无关。在占用空间不低于其下限的情况下,CBF空间复杂度与标准的布鲁姆过滤器相同。  我们使用公共数据集与合成数据集来检验我们的理论推导的正确性。公共数据集由56663条二维数据构成,用于验证CBF虚警率和最优哈希函数个数解析表达式。合成数据集用来验证时间复杂度、空间复杂度、算法可用性等内容。我们选取了虚警率与最优哈希函数实验、维度扩展性实验、完整查询实验、不完整查询实验、空间复杂度实验和时间复杂度实验。并将实验结果与理论推导进行比较。实验证明了我们的理论推导的准确性。在实验中,我们使用大约10个比特来保存一个元素,虚警率约为1%。  为了使用多线程技术来加速集合表示和存在性查询过程,我们迸一步提出了基于CBF的改进算法——并行化乘积型布鲁姆过滤器Parallel Cartesian-join ofBloom Filters,简称PCBF。该算法在继承CBF的优势的同时,避免了对同一个元素进行哈希时不同哈希数据点出现冲突的问题,能够较好地支持多线程加速,可以较快地完成集合元素表示。我们通过理论分析和实验验证了PCBF的算法特性。理论分析和实验证明,PCBF的性能和CBF基本一致,同时可以在使用多线程加速技术后有较好的性能。  最后,本文展示了CBF和PCBF算法的应用场景和未来的研究方向。
其他文献
该文从信息系统安全评估标准入手,讨论分析了信息系统安全等级评估系统的组成、框架、评估方法和工具、评估模型以及评估流程.并在此基础上深入研究和探讨了安全评估系统中的
程序设计语言的编译是很复杂的过程,语言有多种不同的风格,不同的语言可能需要不同的编译技术.ATLAS是一个广泛应用于军事和电子测试的标准测试语言,与一般的程序设计语言有
地理信息系统是一种为了获取、存储、检索、分析和显示空间定位数据的信息系统.从1963年加拿大测量学家R.F Tomlinson首先提出地理信息系统这一术语开始,GIS技术经过了它的开
CMM (the Capability Maturity Model),软件能力成熟度模型,是美国卡耐基梅隆大学(CMU)的软件工程学院(SEI)的一项著名研究成果,该模型可用来评估软件开发机构的软件成熟度级别,
随着企业信息化、网络化的逐步深入,企业内部的网络基础设施与工作组计算环境日益完善,这为工作流技术在企业中的应用、实施提供了可能的条件.工作流技术作为一种实现企业过
该文在总结归纳C2体系结构风格对软件重用所具有的指导性意义基础之上,提出了把C2体系结构风格引入到分布式应用系统开发和企业应用系统开发中,并提出了基于J2EE技术实现C2体
政府信息化建设的重点已经从政府机关内部的办公自动化系统以及政府对外信息发布和反馈平台建设向政府部门间的信息共享和通信系统建设转移,系统建设更侧重于信息的充分共享
互联网络技术的飞速发展,网络管理的地位也越来越重要.如何保证网络高效、安全而且稳定的运行是网络管理所要达到的目的.该文首先介绍了网络管理的发展趋势和重要性.然后介绍
随着数据库应用的不断深化,数据库的规模急剧膨胀,但是数据库管理系统却没有提供有效的工具和方法来利用这些数据,因此充分利用数据进行决策支持成为当今最需要深入研究的领域。
XML是一种承诺创建定制的标记集合以对特定类型信息编码的元语言。它不是一种具体的解决方案,而是一个用来设计标记的schema。XML关注内容,它使数据和数据的表示形式分开。用XM