基于HDFS的海量分布式文件系统的研究与优化

被引量 : 78次 | 上传用户:jyk7978610
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化在社会中的应用越来越广泛,信息的数据量也越来越大,信息的不断膨胀导致信息的存储越来越重要,如何快速地和高效地对海量信息进行存取成为了人们当前关注和研究的一个重要课题。本文对Google分布式文件系统和Hadoop文件系统进行了研究,仿照GFS设计理念的HDFS文件系统因其良好的扩展性得到了广泛的关注,并且是一个优秀的开源分布式文件系统,但要将其应用在海量分布式文件存储中还需进行一定的优化。本文以HDFS文件系统为对象,深入研究其架构和数据组织方式,以及读写操作的详细流程,参考其它优秀的分布式文件系统的设计,通过引入一些优秀的机制,提高HDFS文件系统的性能,使其能够更好地应用于搜索引擎外的其它领域。首先从架构上对HDFS进行优化,采用轻量级的系统设计,通过小集群有效地减少namenode瓶颈,将namenode部分权限下放到datanode,并通过上层索引系统来管理namenode机器,实现系统的高效访问。为保证数据的容错性,系统还采用双机热备份机制。通过这些架构优化,能有效地满足用户以及业务的快速增长所带来的海量存储问题,使系统的扩展性能更好。然后从性能上对HDFS进行优化,通过采用裸设备能有效地减少工/O次数以及对HDFS块大小进行更改,设置偏移ID统一标识文件的位置,有效地提高文件的读写效率,并更好地支持大小文件的存储,使系统实现对不同类别的海量存储需求如图片、视频、文档、语音的统一存储。本文还对namenode、datanode及客户端分别设计了不同的缓存策略,通过Cache的异步读写,提高应用程序的I/O响应速度,大大提高存储系统的性能。最后,通过分析改进后HDFS的I/0过程及简单的读写操作实验,验证了对于namenode的瓶颈有着良好的改善,并对不同大小的文件有着较好的支持,表现出比原HDFS更优的性能,从而证明了本文的改进方法是有效的。
其他文献
加快科技成果转化,对发展我国科学技术和生产力具有重大意义,但科技成果转化率低的问题在我国现阶段还没有得到根本解决,我们在如何有效地利用科技成果创造有竞争力的产品和
对火炬松×加勒比松杂种部分形质性状的QTL进行定位分析,为杂种育种和株型培育提供借鉴。以火炬松1.5代种子园优良单株T1为母本,加勒比松第一代种子园优良单株C1为父本,杂交
阿多诺是法兰克福学派的主要代表人物之一,他对大众文化的态度与其他法兰克福学派成员相比,具有一以贯之、毫不妥协的严厉批判态度。阿多诺对大众文化的批判态度贯穿于他的理
作为斗轮堆取料机主要部件的尾车,其形式和功能越来越多,其中双尾车被广泛地选用。通过对目前双尾车的主要形式、功能及其优缺点进行分析、探讨和总结,帮助合理地选择及设计
为研究黄金鲫对铜(Cu2+)、锌(Zn2+)和铬(Cr6+)3种重金属离子的耐受性,试验分别设定不同浓度梯度的重金属离子处理组,进行急性毒性试验。结果表明,Cu2+半致死浓度(LC50)在24、
一前言改革开放以来,中国根据自身廉价劳动力优势,承接了部分劳动密集型产业,发展了轻纺和机电等产业的加工贸易。它是我国参与国际分工的主要形式之一,也是嵌入全球生产链条
近年来,随着科技的迅猛发展以及网络技术的广泛普及,高校图书馆急需一种高效的完善的图书管理系统对信息进行自动化管理。图书管理系统是典型的信息管理系统,图书管理工作中
日立制作所汽车系统部总工程师高桥义明在分析目前用于汽车的嵌入式软件技术的定位时认为:“可以把在汽车中的技术用于工业设备及工厂控制等领域。在日立制作所,汽车正在带动
针对新建1000 MW超超临界机组满负荷试运行阶段汽水品质不合格的情况,以徐州彭城电厂三期工程1000 MW超超临界机组调试为例,从安装阶段到整套试运全过程进行分析,详细介绍相
随着互联网用户规模及在线旅游预订市场的不断扩大,在线旅游企业的竞争愈发激烈,把握企业的竞争优势,同时加强企业战略性分化发展的能力,保证企业的可持续性发展是所有在线旅