面向海量天文数据的分布式存储引擎的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:yxl122702985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着天文观测设备和技术的进步,天文观测数据规模的迅速增长使得如何存储海量观测数据以及如何能够迅速从中获取想要的信息成为难题。传统单节点的文件系统和关系型数据库在处理海量天文数据方面的性能无法让人接受。因此,设计一套针对海量天文数据处理的分布式存储引擎便显得十分的必要和重要。天文数据可以分为星表数据和星图数据,这两种数据有不同的格式和应用场景。本文针对天文星表和星图的特点,分别设计了两种分布式存储方案,进而加快对这两种数据的存取。星图数据采用分布式文件系统来存取,本文基于星图数据的特点首先提出了混合数据访问模型以减轻分布式文件系统中的网络开销,然后在开源分布式文件系统OrangeFS上实现了该模型。星表数据则采用基于位图索引的列式存储引擎FastBit,本文针对单节点版本的FastBit在处理海量天文数据时会遇到的内存问题,设计并实现了FastBit的分布式数据存储引擎,提出了FastBit的分布式数据划分算法以及基于SQL分析的并行查询算法。本文主要分为两部分,第一部分首先分析了分布式文件系统中客户端节点在不同文件大小与不同数据规模下的吞吐率瓶颈,并根据天文星图的特征提出了混合数据访问模型。从模型的意义和目的角度,对其进行了分析和介绍。接着描述了模型的原理和流程,以及如何将该模型应用到实际的OrangeFS分布式文件系统中。通过benchmark以及真实天文应用的测试,验证了采用该模型的分布式存储对天文星图读写的加速效果。第二部分首先分析传统关系型数据库在处理海量天文星表数据时所存在的问题,并介绍了基于位图索引的列式存储引擎FastBit以及它在处理海量天文数据时所存在的内存问题。然后提出了FastBit的分布式数据划分算法以及基于SQL分析的并行查询算法,描述了FastBit分布式存储的整体架构,最后通过天文星表数据进行实验验证,并对实验结果进行了性能分析。
其他文献
随着我国信息化技术的深入发展,信息安全日益成为社会关注的重要问题。生物特征识别技术由于自身具有的重要特性,已被广泛的关注和应用,其中虹膜识别技术由于自身的特点(高度
随着工业化进程的不断加深,工业控制设备正在往智能化、网联化和综合化方向不断发展,这对设备的安全性、可靠性和可扩展性提出了新的要求。由于设备在接入网络后必将面临多种潜在的威胁,因此工业控制系统需要采取额外的机制来降低这些威胁带来的影响,至少保证设备的可用性。同时,由于设备的计算能力不断提高,设备提供的功能日益丰富,因此工业控制系统也应具备良好的可扩展性以便扩充其功能。通过对现有内核架构进行分析可知,
学位
与其他传统方法相比,生物技术在个人身份验证和识别方面更有优势,因此近几年来应用到了越来越多的领域。但是,也带来了许多令人担忧的问题。其中,生物识别系统能否被广泛应用的最
智能交通系统是未来交通系统的发展方向,它可以使交通管理更加高效。随着计算机视觉和图像处理技术的不断发展,利用计算机视觉检测识别车辆成为一种特别有潜力的方法。在智能交
随着互联网的普及和电子商务的发展,电子商务系统为用户提供了越来越多的选择,与此同时它的结构也变得愈加复杂,这就会造成用户在大量的商品信息空间中迷失,无法顺利找到自己
随着信息化的不断发展,数字信息呈现着惊人的增长速度,使得大量的数字资源面临着长期保存的难题。当前,数字信息长期保存的研究主要围绕保存元数据、系统架构和迁移等技术机制展
随着近些年信息技术的飞速发展使得数据库成为数据管理的重要工具,但由于不同行业和不同部门间描述数据的方式和方法不同,要实现这些大量的异构的数据共享成为了当今数据集成领
如今,由于互联网的发展速度愈来愈迅速,信息与资源的传播和发布也随之变得更加迅速和快捷,互联网上信息量的规模也因此日益巨大,这就导致信息检索愈加艰难了,不过幸运的是用户可以
交通系统是人、车、路、环境组成的动态系统,这个动态系统中的四大要素及其影响因素都在不断地发生变化,交通事故就是这个动态系统失调的结果。交通安全问题是困扰当今国际交通
景象匹配是一种依靠传感器、图像匹配等先进技术,对飞行器进行精确定位的辅助导航技术。景象匹配指的是将一个图像区域从同一场景的的其他设备得到的区域中定位所在位置或找