论文部分内容阅读
数字图书馆向读者提供了各类电子资源服务。近年来,随着数字图书馆的快速发展,各类电子资源的数量也在快速增加,而传统的电子资源系统多是单机系统,处于“各自为政”的状态,存储扩展能力差,难以应对日益增长的资源;处理能力低,难以应对大并发访问;稳定性不足,服务器发生故障会影响系统的服务。采用统一的分布式存储系统可以很好地解决这些问题。流行的分布式存储系统有GFS,HDFS,FastDFS,OceanStore等。但考虑到数字图书馆中资源种类多,简单照搬现有的分布式存储系统并不能完全满足电子资源存储和获取的要求。
本文以国家“211”工程“中国高等教育文献保障系统”(简称CALIS)“十五”项目“中国高等教育数字图书馆”(简称CADLIS)为背景,提出了一种分布式的电子资源分布式存储子系统的总体架构。该子系统以开源软件HDFS为基础,针对电子资源的存储和服务的特点,提出了具体改进和优化方案和相关算法,使之能够更好地满足数字图书馆系统服务的要求。本文针对电子资源系统对外服务的特征,将缓存机制加入到系统中,改进了副本复制策略,使数据块索引得到优化,从而节省了索引服务的内存空间并提高了检索的效率。同时,优化的数据块索引便于持久化,加快了系统的启动时间,还可以减少系统节点之间同步信息的传输量。针对数字图书馆资源尺寸变化大的特点,本文设计了可变长度的数据块模型,使得系统可以同时适应大文件和小文件的存储要求。另外,本文还针对电子资源系统的写入频率特性,设计了集中式的数据写入模式,把索引的读写分开,可以使写入管理更加简单和稳定,并且能够减轻中心节点的负担。
本文将上述方案与实际业务应用相结合,利用前沿的分布式对象存取技术完成了电子资源分布式存储子系统的开发,通过实际测试,验证了该子系统的实际性能。