论文部分内容阅读
新一代高能物理实验产生了海量的数据,这些数据的存储和高速访问对海量存储系统在可用性、可扩展性及IO访问性能上提出了新的挑战。元数据管理是海量存储技术的研究热点,它对海量存储系统在可扩展性、可用性及高效性方面起着十分重要的作用。为有效管理海量存储系统的元数据,实现数据的高效存取和定位,论文研究了分布式元数据管理系统及其关键技术,设计了新型动态可扩展的分布式元数据管理系统StarFS,并在Gluster开源框架的基础上进行了实现,旨在解决高能物理海量存储系统的元数据性能和可扩展性问题。本研究主要内容包括: ⑴元数据信息的存储和分布策略。本文对海量存储系统的元数据管理问题进行分析研究,提出了一种自适应目录子树划分的元数据分布算法(ADSP)。算法将文件系统的层次逻辑空间,以目录为粒度划分为一个个子树,子树在存储设备上以扁平化结构存储,利用扩展属性记录子树的元数据分布信息和文件属性,子树根据元数据服务集群的负载情况自适应调整,实现元数据服务集群的负载均衡和动态扩展。ADSP算法是一种改进的子树划分算法,既有静态子树划分算法的实现简单、计算复杂度低的优势,又克服了动态子树划分算法复杂,开销大的不足,实现更为灵活的元数据管理,提高系统的可扩展性。 ⑵数据存储和定位算法研究。本文针对海量存储系统的动态可扩展和数据高效定位的问题,提出了分布式统一布局算法(DULA),实现数据的均匀分布和数据的高效定位。该算法是一种改进的一致性哈希算法,不需要任何的路由信息,实现一次定位,平均时间复杂度为O(1)。实验说明,DULA算法能实现均匀的数据分布和高效的数据访问。此外,文中提出海量存储系统中哈希算法的三个评价标准,并根据衡量标准对主流的哈希算法从理论和软件模拟两方面进行了比较分析,为DULA算法对哈希算法的选择提供理论依据。 ⑶构建了Key-Value存储结构与逻辑结构的映射,支持文件系统的POSIX语义。文件系统的逻辑结构与数据的物理存储结构的映射是文件系统的关键技术之一。本文基于树形结构的思想,对文件系统的存储结构提出多目录存储方法。一方面,通过唯一标识文件的UUID的哈希值高效定位到具体的目录层次;另一方面,多层目录树的设计能有效防止EXT3/EXT4本地文件系统下单个目录的inode个数过多造成的性能降低。 ⑷提出了软硬件相结合的元数据服务的可靠性方案。硬件方面,磁盘RAID技术和双机热备技术相结合,避免硬件故障引起的系统不可用;软件方面,采用远程备份和数据副本技术,并针对副本的放置问题,提出多哈希副本分布算法,解决元数据集群中数据丢失的问题,实现元数据集群的负载均衡,从而提高数据的可靠性和系统的可用性。