论文部分内容阅读
随着信息化的发展,海量存储的需求日益增长。提供海量存储数据管理功能的机群文件系统正受到学术界和产业界的广泛重视。由于海量存储应用具有超大规模文件管理和超大规模数据存储访问的特点,在元数据管理和数据访问上对机群文件系统提出高可扩展性的需求。由于元数据名字空间组织耦合度高和存储空间管理集中,当前的机群文件系统在元数据和数据规模较大时会出现可扩展能力差,服务器负载不均衡等问题。
针对机群文件系统在面向海量存储时出现的可扩展性问题,本文研究将元数据和数据管理结构划分成均匀粒度并均衡分布到多个服务器的方法。
本文的主要贡献如下:
(1)提出了一种自适应可扩展的名字空间管理方法。机群文件系统的名字空间管理在面对海量文件尤其是大目录时会由于目录元数据结构在多元数据服务器的划分不够均衡而难以实现处理性能的可扩展。为了解决这一问题,我们提出了一种动态划分目录元数据结构的方法,它利用动态哈希技术(Extendible Hashing)对目录内的元数据进行组织,可以根据目录规模控制目录划分结构的大小和数量,均匀分布到多元数据服务器上。实验结果表明,该方法优于其他静态划分名字空间的方法,能够在全目录范围提供较高的元数据处理能力。
(2)提出了一种自适应可扩展的存储空间管理方法。存储空间管理的本质问题是维护数据与服务器的映射关系。面对海量存储,存储空间管理需要支持数据的均衡放置和数据的快速定位。然而数据放置需要集中式处理以做到对系统全局资源的准确分布;而数据定位需要分布式处理以避免定位查询造成系统热点,影响系统可扩展性。为了同时满足数据放置和数据定位的需求,我们提出了一种自适应可扩展的存储空间管理方法。该方法先对存储空间中的对象文件建立索引结构,然后建立对象文件与其索引结构的绑定,将对象文件的放置和定位问题转化为对其索引结构的放置和定位问题。通过索引结构在对象存储服务器的动态划分,能够在提高数据定位效率的同时实现数据在服务器上的均衡放置。实验结果表明在PB级存储规模下,定位开销可以维持在11us,存储服务器的存储空间利用率能够达到均衡,并可以提供较高的聚合IO吞吐率。
(3)提出了一种高效的多元数据服务器负载均衡方法。该方法通过维护元数据与元数据服务器灵活的映射机制,能以较小的开销完成元数据负载的迁移;通过高效的负载监听机制,对负载均衡不利的负载干扰能够被有效屏蔽;通过低开销的负载迁移方法,能够以对正常服务较小的影响实现负载迁移。实验结果表明该方法能通过调整负载敏感度和负载迁移粒度快速平衡多元数据服务器负载并能提供较高的聚合元数据处理能力。
(4)利用上述研究成果,设计并实现了面向海量存储、提供POSIX语义文件访问接口的机群文件系统skyFS。该系统利用FUSE用户态文件系统在用户态实现了POSIX语义的文件访问接口,其多元数据服务器支持并发处理海量文件,其对象存储服务器能够分布式地管理PB级的存储空间。性能评价结果表明,skyFS在32台元数据服务器配置下可以提供每秒7万次的文件创建和每秒27万次的文件查询,在十亿大目录条件下可以提供每秒6万次的文件创建。在数据处理方面,skyFS通过均衡的数据分布和并发处理对象文件的能力可以提供线性增长的IO吞吐能力,且在多用户并发访问的环境下仍能保持性能的稳定。