论文部分内容阅读
如今是大数据的时代。面对日益增长的海量多样的数据,传统的数据存储技术已经无法满足这样的大数据存储需求。Hadoop分布式文件系统的出现,解决了大数据存储的难题。由于Hadoop分布式文件系统HDFS(Hadoop Distributed File System)采用一主多从的架构,存在着名字节点单点失效问题;并且在存储海量的小文件时,会严重降低名字节点的存储性能,同时引发名字节点的内存瓶颈问题。对名字节点性能优化的研究,为解决大数据处理与存储难题有着重要的探索价值和实际意义。课题对名字节点的性能优化进行了深入的分析与研究。针对名字节点单点失效问题,本课题采用MN-BH分布式文件系统结构,优化了原有的云存储平台。若主名字节点服务器因故障宕机,可以及时启动另一从名字节点服务器,确保Hadoop集群正常服务。为了提高名字节点对海量小文件的存储性能,解决小文件引发的单点内存瓶颈问题,本课题提出了HSFM小文件存储优化算法。待上传的小文件经预处理层进行处理,即将海量的小文件归并成一个大文件,然后持久化地存储在各个DataNode节点中,从源头解决了小文件引发的名字节点内存瓶颈问题。该算法可有效地减轻名字节点内存负担,大大提高名字节点读写文件的性能。对名字节点的性能优化分析后,本课题给出了名字节点性能优化的详细设计与实现。最后,测试优化后的HDFS分布式文件系统,模拟主NameNode服务器宕机,启用待命从NameNode服务器,HDFS中数据文件没有丢失,确保整个Hadoop服务器集群正常运行,测试达到了预期效果。测试优化后名字节点性能,设计了三组实验,即:NameNode内存占用量测试、小文件存储性能测试、小文件读取性能测试。实验结果表明,优化设计可以大大地减少名字节点内存占用量;文件读写速度较优化前速度的2-3倍。分析测试后的实验数据,达到了预期测试效果。