面向海量存储的机群文件系统元数据管理关键技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:yufengjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的发展,海量存储的需求日益增长。提供海量存储数据管理功能的机群文件系统正受到学术界和产业界的广泛重视。由于海量存储应用具有超大规模文件管理和超大规模数据存储访问的特点,在元数据管理和数据访问上对机群文件系统提出高可扩展性的需求。由于元数据名字空间组织耦合度高和存储空间管理集中,当前的机群文件系统在元数据和数据规模较大时会出现可扩展能力差,服务器负载不均衡等问题。   针对机群文件系统在面向海量存储时出现的可扩展性问题,本文研究将元数据和数据管理结构划分成均匀粒度并均衡分布到多个服务器的方法。   本文的主要贡献如下:   (1)提出了一种自适应可扩展的名字空间管理方法。机群文件系统的名字空间管理在面对海量文件尤其是大目录时会由于目录元数据结构在多元数据服务器的划分不够均衡而难以实现处理性能的可扩展。为了解决这一问题,我们提出了一种动态划分目录元数据结构的方法,它利用动态哈希技术(Extendible Hashing)对目录内的元数据进行组织,可以根据目录规模控制目录划分结构的大小和数量,均匀分布到多元数据服务器上。实验结果表明,该方法优于其他静态划分名字空间的方法,能够在全目录范围提供较高的元数据处理能力。   (2)提出了一种自适应可扩展的存储空间管理方法。存储空间管理的本质问题是维护数据与服务器的映射关系。面对海量存储,存储空间管理需要支持数据的均衡放置和数据的快速定位。然而数据放置需要集中式处理以做到对系统全局资源的准确分布;而数据定位需要分布式处理以避免定位查询造成系统热点,影响系统可扩展性。为了同时满足数据放置和数据定位的需求,我们提出了一种自适应可扩展的存储空间管理方法。该方法先对存储空间中的对象文件建立索引结构,然后建立对象文件与其索引结构的绑定,将对象文件的放置和定位问题转化为对其索引结构的放置和定位问题。通过索引结构在对象存储服务器的动态划分,能够在提高数据定位效率的同时实现数据在服务器上的均衡放置。实验结果表明在PB级存储规模下,定位开销可以维持在11us,存储服务器的存储空间利用率能够达到均衡,并可以提供较高的聚合IO吞吐率。   (3)提出了一种高效的多元数据服务器负载均衡方法。该方法通过维护元数据与元数据服务器灵活的映射机制,能以较小的开销完成元数据负载的迁移;通过高效的负载监听机制,对负载均衡不利的负载干扰能够被有效屏蔽;通过低开销的负载迁移方法,能够以对正常服务较小的影响实现负载迁移。实验结果表明该方法能通过调整负载敏感度和负载迁移粒度快速平衡多元数据服务器负载并能提供较高的聚合元数据处理能力。   (4)利用上述研究成果,设计并实现了面向海量存储、提供POSIX语义文件访问接口的机群文件系统skyFS。该系统利用FUSE用户态文件系统在用户态实现了POSIX语义的文件访问接口,其多元数据服务器支持并发处理海量文件,其对象存储服务器能够分布式地管理PB级的存储空间。性能评价结果表明,skyFS在32台元数据服务器配置下可以提供每秒7万次的文件创建和每秒27万次的文件查询,在十亿大目录条件下可以提供每秒6万次的文件创建。在数据处理方面,skyFS通过均衡的数据分布和并发处理对象文件的能力可以提供线性增长的IO吞吐能力,且在多用户并发访问的环境下仍能保持性能的稳定。
其他文献
自然语言中存在大量的非字面意义的表达,如隐喻、转喻等,这些表达的真正含义无法从字面上直接获得,有时其字面义是讲不通的。这给自然语言理解提出了挑战,成为自然语言理解必须攻
学位
托卡马克装置物理实验的开展依赖于高效稳定的等离子体控制系统,极向场交流控制作为HT-7控制系统中的重要控制模式,是在充分利用托克马克装置变压器感应驱动的基础上,通过等
学位
大数据时代背景下,数据的价值受到了前所未有的重视,传统的数据管理与分析技术由于其自身的限制无法应对大数据带来的挑战,亟需新的理论和技术来支撑大数据的分析和处理。连接操
在分布式计算背景下,作者参与的多个项目与在线文档处理、数据备份相关。本人在项目中承担两个任务:改进文档的版本备份算法和优化大文件在广域网中传输。从中产生的两个原创性
瓦斯爆炸是我国煤矿生产中最常见的灾害事故,目前治理瓦斯爆炸的主要手段是瓦斯预测。专家系统具有适应性强、可靠性强、成本低、响应快等优点,并具有持久性、复合性和解释说
目前,高校校园中信息(如教学、就业)的发布、获取主要通过校园网、电话等形式,其缺点是缺乏移动性、实时性,而传统的短信发送方式只是手机终端之间的文本复制,无法根据用户的
传统软件开发过程以概要设计和编码为驱动,存在着大量重复性开发。日益复杂的系统结构、需求的不断变更、平台之间兼容性所导致的复用性、互操作性差等问题,使得传统的软件开
近年来随着云计算的迅速发展,“计算即服务”的理念与客户机/服务器(C/S:Client/Server)计算模式得到越来越广泛的应用。计算资源通过在不同层次上的封装,以服务的形式提供给最终
学位
目前软件技术在生产环境中的应用越来越广泛,在为我们提高生产速度的同时也为我们带来了前所未有的难题,过于臃肿的软件系统和日益变化的需求是目前软件面对的重大挑战。如何
大气CO2作为主要的温室气体,对温室效应及气候变化有着重要的影响,研究大气CO2变化规律以控制其排放,具有重要的意义。但是,由于CO2在大气中的浓度和梯度都比较低,导致对它的
学位