云数据管理中查询处理关键技术研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:jsj19871027
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,数据呈现爆炸性增长的趋势,云计算平台逐渐成为一种大规模数据存储和管理的解决方案。目前工业界有许多企业开始提供各种云数据管理服务,但其功能和性能都不够完善,大部分云数据管理系统无法提供结构化查询接口,这给很多基于DBMS的系统向云数据管理系统的无缝迁移带来许多不便,并且没有针对云数据的特点进行查询的优化处理,尤其是针对复杂查询,基于MapReduce的查询处理效率远远无法满足用户需求。  本文首先针对结构化查询效率的问题,借用MapReduce的容错思想,提出一种有针对性的高效查询处理算法。该算法将用户查询按存储进行拆分,同时利用云数据管理系统中的备份数据,将一个子查询映射为k(k为备份个数)个子查询,令每个子查询映射均等待在该份数据所在的从节点的队列中。算法分别采用两种调度策略为当前空闲从节点分派其等待队列中的子查询,保证节点间的负载均衡。  连接查询是云数据管理中极其重要的一类查询,同时由于其与普通查询相比具有一定的特殊性,因此本文特别针对连接查询设计了查询处理技术。连接查询涉及多个数据表,因此查询过程中的数据传输问题尤为严重。首先针对连接查询中可能存在的无效连接进行过滤,降低其带来的传输代价;另一方面通过对具有相同访问路径的子连接进行聚类,把所有可以同时访问并进行查询的子连接聚合在一起,从而降低读写代价和重复查询次数;在子查询的调度过程中,针对相同调度队列中的聚集再次进行合并,减少由差异访问路径带来的子查询分离现象,进一步减少读写和数据传输代价。  对上面提出的查询处理技术,本文分别在模拟环境和真实环境中,在不同量、不同分布的数据集上进行了丰富的实验。实验结果表明提出的算法的有效性、高效性和可扩展性,可以很好的利用系统中的冗余存储提高查询处理的并行度,降低数据传输代价,从而提高查询效率。
其他文献
随着科学技术的发展和管理能力的提升,软件和服务都处在一个快速发展的黄金时期,但是这些变化带来了新的功能、方便和复杂性。随着系统复杂性的增长,用于开发系统的过程也随
无线传感器网络日益成为信息感知的重要手段之一,有着丰富的应用支撑和广阔的发展前景。为了对网络中的数据进行有效和高效的管理,一般将无线传感器网络建模为一个分布式数据库
现实世界中,很多实际问题都更适合于用“图”进行建模。在图挖掘领域,对象相似度作为一个重要课题,被广泛应用在链接预测、欺诈检测、协同过滤、近邻查询等众多实际问题中。在传
最短路径问题是图论中的经典问题,它不仅广泛应用于早期的简单网络,而且在涉及到复杂网络的各个领域中也得到了多方面的应用,例如:在一个给定负载量的交通网络中选择从出发地到
随着企业信息化建设的发展,信息化系统的安全性也日益得到关注。权限管理作为保证系统安全性的一个重要机制,已经成为研究的热点之一。漏洞共享平台是发布安全漏洞信息的平台
掌握全国的污水处理情况,对于政府决策者制定节能减排目标和相关政策,污水厂投资建设,运营管理指导等至关重要。为帮助决策者和管理者掌握污水处理厂建设和运行状况,了解其运行规
随着计算机和网络技术的不断发展,XML技术的应用也不断扩展。该技术不仅可以用于银行之间进行数据交换、证券公司对其上市公司相关的数据进行统计、图书馆对其馆藏书目进行查
随着WLANs的发展和普及,其用户数量日益增多,而网络资源十分有限。为了给用户提供更好的网络接入服务,优化用户接入机制成为近年来的一个研究热点。本课题的研究目标是:优化用
随着互联网信息量的飞速增长,快速准确的从浩瀚的数据海洋中找到需要的信息显得非常重要。搜索引擎为互联网用户提供了便捷的查询服务,随后出现的一系列Wiki系统提供了对某些特
联盟是多Agent系统中的一种经典组织形式,Agent间通过形成联盟达到提高任务求解能力、获取更多收益的目的。随着计算机技术的发展和应用环境的变化,联盟所面对的任务往往处于动