论文部分内容阅读
进入21世纪以来,随着数字图书馆、电子商务、科学计算、电子文档和多媒体信息存储等以数据为中心的信息服务技术的不断发展,对数据存储系统的存储容量和可靠性等问题提出了越来越高的技术要求。从现阶段来看,采用数据备份系统来备份关键数据是提高数据可靠性的一种有效技术手段,然而随着数据信息量的快速增长,数据备份系统中的多余的冗余数据信息随着时间的推移而日益增多,数据备份也面临着很大的存储压力。因此,研究数据缩减技术,删除存储系统中多余的冗余数据,减少数据在存储空间、管理和能耗等方面造成的资源浪费等相关问题有重要的现实意义。在现有数据备份技术中,增量备份和差分备份难以解决备份数据急剧膨胀的问题,而重复数据删除技术作为一种新的数据缩减技术可通过删除冗余数据,减少存储系统使用的存储容量来有效地降低存储成本。基于此,本文在深入分析和研究重复数据删除技术的基础上,将重复数据删除技术引入了作者课题组提出的智能网络存储系统(Intelligent Network Storage System, INSS)的课题研究中,并针对重复数据删除技术带来的海量元数据管理和频繁磁盘I/O等导致存储性能低的问题,提出了优化解决方案实现缩减冗余数据和降低存储成本来提高智能网络磁盘存储系统的存储性能。本文的主要任务是研究和设计智能网络存储系统(INSS)的重复数据删除模块,并提升重复数据删除技术的性能。目前所做的主要研究工作和取得的研究成果包括:(1)设计和实现了一种基于对象缓存的内存分配机制,该机制可减少内存碎片,提高内存的分配效率。(2)结合线程池和有限状态机技术,提出了一种实现重复数据删除模块业务逻辑处理并行化和层次化的处理方案。(3)在受限内存环境下,设计了一种基于散列表的带淘汰机制的内存元数据索引结构,它可实现高效的元数据信息插入、检索和删除操作。(4)改进了基于流的快排列技术(Stream-Informed Segment Layout, SISL)的存储容器分配算法,该算法能够降低存储容器元数据信息的存储开销,提高存储容器利用率,并维护数据块元数据信息访问的局部性。