云环境中面向动态表的查询机制的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:jonnykang001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
企业信息化建设的深化和进一步发展,产生了海量的数据。同时,业务逻辑的多变使得数据模式也在不断调整变化。企业信息决策也需要提取和分析海量的来源于Web的数据。如何有效管理这些海量、模式多变的数据,从而支持企业核心业务,辅助决策分析,为传统数据管理技术带来新的挑战。传统数据管理系统由于体系结构所限很难扩展管理这些数据。  针对这一个问题,现有研究基于目前流行的分布式云计算平台Hadoop来实现海量数据的存储和类SQL查询,并研制了若干系统,如侧重于实时数据查询响应的Hbase和侧重于离线数据分析的Hive。但是,这些系统不能同时兼顾实时数据查询、数据分析和支持数据模式多变的需求。  本文基于目前的研究进展,探讨了模式多变环境中同时支持实时数据查询和类SQL的实现策略,具体来讲,本文贡献如下:  ●在核高基课题组提出的动态表存储机制上提供类SQL查询。动态表对元组集合进行基于B+树的按行有序分块,块内按照列存储。在动态表的数据存储下,提供基于MapReduce的类SQL查询支持,具体包括选择操作、聚集操作和连接操作的多种实现,其中包括本文提出的Index MapMerge Join和Index Reduce Join两种连接算法。  ●提出了针对连接操作的基于代价的优化策略。在基于动态表的数据存储模式下,提供一种基于代价估计模型的连接优化策略,对开销最大的连接操作进行代价估计,并利用代价估计模型对连接操作进行优化,提高分析处理效率。  ●实现了基于动态表的查询处理部件。通过模拟实验,初步验证了本文所提出方法的有效性。
其他文献
近年来,随着无线网络和移动手持设备的快速发展,基于无线移动网络的应用也越来越普遍。无线自组织网络(Mobile Ad-hoc NETworks,MANET)正是在这种背景下产生的。MANET具有自
随着互联网媒体网站的迅速发展,新闻、博客的评论系统普遍遇到垃圾评论的困扰。这些垃圾评论中充斥着色情、暴力、政治敏感的信息,这些信息严重阻碍了用户之间正常的交流讨论。
学位
随着网络技术的发展和应用,网络信息传输能力不断提高,移动网络、物联网、普适计算、社交网络、云计算等诸多新兴网络及应用发展迅速,网络环境中的隐私保护日益成为信息安全领域
眉毛作为人脸上的重要组成部分,已经初步被证明可用于生物特征识别。本文将正例半监督学习,支持向量机模型运用到眉毛识别中,对人的眉毛作为一种独立生物特征使用的可行性作进一
随着全球一体化进程的迅速迈进,人们对网络通信技术的依赖程度日益提高,传统的地面网络已经不能满足人们实时性、综合性的服务需求,具备全球覆盖、多种功能、自主运行、轨道互补
图像压缩是存储和传输图像时的一个重要技术。现有的许多图像压缩方法都是以去除图像的统计冗余为的方式达到数据压缩,很少考虑人眼的视觉冗余,往往无法达到更高的压缩效果。为
随着我国深化医疗改革,区域医疗信息化建设逐渐成为医疗行业信息化建设的重点。在区域卫生信息架构中,患者在院级平台的医疗信息以电子病历的形式存储。由于院级平台致力于电子
随着计算机网络的迅速发展和广泛应用,各种网络安全威胁层出不穷,网络安全问题成为当前亟待解决的问题。可信计算从计算终端入手,以硬件可信模块为核心,通过可信传递构建计算平台
“基于Erlang/OTP的虚拟计算平台UniAS”是一种面向企业内网络资源的虚拟计算环境,可为程序运行提供稳定的虚拟资源视图,将程序的运行环境从单机透明延伸到网络。这一多机跨