超大规模查存算法建模及比较研究

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:tonyyuhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据环境下,每天产生海量数据,并存储在数据库系统中。很多时候,系统新来一个数据,都需要查询该数据是否已经在系统中,也就是对数据的查存。随着数据量增大,查询一个数据是否已经存在系统中消耗的时间也更长。而大多数实际应用却需要系统能快速地响应这类查询。因此,快速地响应查询一个数据是否已经存在系统中,是一个具有现实意义的应用需求。  针对这种应用需求,论文指出有两种方案可以实现这种需求,第一种方案是通过客户端访问数据库系统,但是将会引起不必要的时间开销。第二种方案就是考虑在内存中实现一个数据结构,表示存储在存储系统中的海量数据。当需要查询某一数据是否存在系统中时,只需要访问内存中的数据结构。第二种方案在时间开销上优于第一种方案。而且方案二中现存很多查存算法,例如有简单的位图结构、高效的布隆过滤器及其相关的引申算法等。尽管如此,如何在这些数据结构算法中,评估和选择一个合适的高效数据结构,来表示存储在数据库等存储系统中的海量数据,是一个值得重视的挑战,也是一个具有实际意义的研究问题。  针对上述应用需求和问题挑战,本论文的主要工作是:第一,提出海量数据中查存算法的评估和比较需求。第二,提出了对查存算法的统一建模,并在算法建模框架下,给出位图数据结构、标准型布隆过滤器、计数型布隆过滤器、Dynamic布隆过滤器以及D-left布隆过滤器的模型实例。第三,提出对查存算法的评估指标,利用该指标可对不同的查存算法进行选择及评估。此外,还给出上述五种算法的理论评估及实验评估结果。第四,对五种数据结构算法进行对比研究,并在分析中给出在查存算法评估选择上的相关建议。第五,实验结果表明在算法选用上,建议考虑数据量及其全集个数,误差容忍范围以及资源受限情况。
其他文献
近年来,随着GPS系统的不断发展,以及基于位置服务的普及,大量的时空数据在日常生活中日益积累,并为不同类型的应用所服务。由移动对象产生的时空数据被称作移动对象轨迹。如何从
在无线网络的路由中,如果处于不同路径上的两个节点间的距离太小,则在这两条路径上传输的数据相互之间很有可能会发生干扰从而导致数据的出错甚至丢失。这种场合就需要设计非干
云计算、物联网、移动互联、社交媒体等新兴信息技术和应用模式的快速发展,促使全球数据量急剧增加,推动人类社会迈入大数据时代。大数据应用背景下,用户对存储空间的需求越来越
认知无线电网络作为一种革新的通信范例,通过动态频谱共享,有效提升了紧缺频谱资源的利用率。认知无线电网络中的认知用户通过与周边环境进行交互,自适应调节传输参数,以共享授权
随着大数据时代的到来,全球数据总量爆炸式增长,云存储系统的规模越来越大,系统中硬盘故障的发生频率也因此变得越来越高。传统的被动容错模式只能通过不断增加冗余保证系统可靠
学位
随着移动互联网快速发展,移动终端面临的安全威胁也日益突出。Android系统凭借其开源、易定制的特性,已占据移动智能操作系统绝大部分的市场份额。自2008年的1.0版本以来,Androi
图像中的文字定位与提取是当前热门且具有实际应用意义的课题。随着数码产品的普及,网络中出现大量来源于各种场景下的图像,检测和识别这些图像中的文字在工业界正越来越受重视
无线传感器网络是由大量传感器节点通过无线通信方式组成的一个多跳自组织网络,用以实现对物理世界的监控,是影响人类未来生活的十大新兴技术之一。而节点自定位技术作为无线传
学位