Hadoop平台下海量日志数据处理模型的研究及改进

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:wangking88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术以及互联网高速地运用到人类社会生产生活的各个方面,数据量呈现出爆发性的增长。为满足海量数据应用的处理要求,基于大规模计算机集群的并行计算成为了主要途径,而MapReduce就是一个最初由谷歌设计用来在大型集群上执行并行计算的框架。它能够减少开发人员在进行并发编程时的复杂性,使得开发人员在不了解分布式底层细节的情况下开发分布式程序。Hadoop是一个实现MapReduce的开放源代码的集群平台。目前,Hadoop在很多互联网公司里都已经得到了应用,可以说是应用最为广泛的开源云计算软件平台。但是,Hadoop还是一个发展时间较短的平台,在许多地方还需要提高和改进。本文主要研究工作和贡献如下:1)本文对Hadoop平台的架构及其核心技术进行了深入的研究;阐述了Hadoop平台下现有的调度算法FIFO、计算能力调度算法以及公平调度算法的设计思路、实现过程以及算法优缺点。针对FIFO调度策略单一、容易造成大作业长时间等待、集群CPU利用率低的问题,提出了基于红黑树的分层调度算法(HSBRB),并将其引入Hadoop平台。2) HSBRB调度算法引入了红黑树作为存储作业信息的数据结构。红黑树是一种效率非常高的不完全平衡二叉树,随着结点个数的增加,红黑树会获得高速的数据插入、删除速度,从而提高整个集群的CPU利用率。同时,HSBRB调度算法采用了层次调度模型来调度作业。当多用户共享集群平台时,每个用户对应一个池,每个池里存放多个作业,从而解决了FIFO只针对单用户提交作业的不足导致的集群资源利用率低的问题。3)海量日志数据的处理。本文的海量日志数据均来自于NBER的专利数据集。为获得不同引用频率的专利数目,搭建了一个小型的Hadoop集群平台,并在该平台上开发分布式并行程序,结果保存到指定的目录文件中。4)为验证HSBRB算法的性能,本文设计了两个不同的实验场景对Hadoop现有的调度算法FIFO、Fair Scheduler以及本课题的HSBRB算法进行了实验对比。实验结果验证了HSBRB算法的合理性以及有效性,而且相对于现有的调度算法,HSBRB算法能够更好地减少作业运行时间、提高CPU的利用率,是一种较为理想的任务调度算法。最后我们对论文工作进行了总结,并讨论了对进一步工作的展望。
其他文献
'据说,现在养老形式很多,但我们找不到适合的方式',家住北京市朝阳区双井地区的王先生,年龄78岁,有子女,目前与老伴生活在自己家里,他告诉《中国信息界》记者,'
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
法律职业道德是我国实现法治国家的前提要件,关系到法律职业的健康发展,关系到民主法治最终能否实现。没有法律职业道德法治社会难以建立,法律职业如果都没有道德素养,社会秩
物流信息管理系统通过与企业其他管理系统(如ERP、OMS等)的无缝对接,实现信息在企业各个系统之间的自动传递和接收,使企业实现信息一体化,避免物流系统成为信息"孤岛"。
结核病仍然是目前临床上的常见病和多发病,在过去的十几年间,结核病的发病率又呈现逐渐上升的趋势,全球感染结核杆菌的人数达到了20亿。现在全球患有结核病的病人总数已经超过
南堡油田是我国浅海油气勘探的一个重要油田,其内断裂发育,且与油气关系密切,能否正确认识断裂对油气的控制作用,对于认识其内油气分布和指导油气勘探具有重要意义。在充分利用南
随着社会工作在我国的普及,社会工作者的职业风险如同警察、医务人员等高危行业,呈现出愈演愈烈的趋势。2012年,深圳市坪山新区一位女岗位社工在上班期间惨遭男上司侵犯;2013
随着全球对降低能耗的需求,节能技术正在迅速推广。传统LED照明电源采用的方案要么效率低,要么性能不稳定。由于谐振变换器具有高频化、高功率密度和高效率的特点,所以其运用