论文部分内容阅读
随着数据海量化的发展,动漫制作的技术瓶颈主要体现在底层计算资源有限、存储能力弱、传输速度慢等方面,而近年来新兴的云计算架构为解决上述问题提供了行之有效的途径和手段。将云计算与动漫领域相结合构建全新的“动漫云”成为未来动漫制作技术发展的主流方向。动漫素材库是一个具有科学性和实用性的大型知识库,随着对各类专业素材的覆盖面、素材提供平台的效率以及用户体验要求的不断提升,建立基于云环境下的动漫素材库成为必然的发展趋势。分布式文件存储系统(HadoopDistributedFileSystem,HDFS)作为云存储平台,为海量数据提供高性能、高可靠、高可扩展的存储服务,HDFS适合存储流式大文件。应对海量小文件时,由于每个小文件占用名字节点(NameNode)存储的元数据相同,海量小文件会占用大量的内存,增大了 HDFS的内存负担,给HDFS的扩展性和性能带来严重问题,所以逐渐成为近年来的研究热点。本文首先分析了现有解决HDFS存储海量小文件的方案,对Hadoop技术的分布式环境、工作原理及使用方法进行了深入的研究,并在此基础上对使用广泛的基于HDFS的海量小文件存储方案进行了改进。根据文件大小将小文件分级处理,利用线性哈希索引技术将海量小文件数据均衡分布,对合并后的同级小文件创建线性哈希索引。动漫素材库系统索引通过固定的时间周期将HDFS中存储的数据文件追加到数据仓库工具(Hive)中,通过表的形式赋予数据结构,提高HDFS对海量小文件的处理能力,有效降低名字节点的负载压力。将改进后的海量小文件存储方案应用在动漫素材库中,测试和实验数据分析表明,本文方案通过分级线性哈希索引方法可以有效减少海量小文件写入时间,实现存储数据均衡分布。通过Hadoop可视化分析器(Hue)将数据仓库中索引的数据结果反应给用户,有效降低了内存开销,节省了存储空间。