一种提高虚拟化Hadoop系统数据本地性的资源调度方法

来源 :第二届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:boriszhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Hadoop系统中,大规模数据分析应用程序的数据本地性是影响其性能的关键因素.传统的Hadoop系统是部署在物理机中的,目前针对传统Hadoop系统提高数据本地性的资源调度方法在虚拟化的Hadoop系统中效果不佳.这是因为在虚拟化的Hadoop中,数据的分布被分为了两个层次:虚拟机和物理机.该文采用将计算节点和存储节点分别部署在不同虚拟机中的方式部署虚拟化Hadoop系统,并提出了一种提高数据本地性的资源调度方法.首先,在任务提交阶段,调节作为计算节点的虚拟机的计算能力,使其能够运行较高数据本地性的任务;其次,在任务运行阶段,通过迁移计算节点到任务所需数据存储节点所在的物理机以提高数据本地性.实验表明,本文提出的方法能够使86%的测试程序的作业完成时间在不同程度上有所减少.特别地,在测试案例TeraSort中处理10GB的数据,本文的方法比传统方法缩短了33%的作业完成时间.
其他文献
实体解析在数据库管理、信息检索中均有广泛应用,大数据时代的到来使得实体解析在海量数据的处理上面临新的挑战.为适应海量数据的实体解析工作,提出基于块依赖的并行实体解
会议
什么样标准的别墅是一个好的别墅?第一是地段,第二是自然环境。6月28日,由太原搜房网主办的以“太原别墅居住文化发展和产品创新”为主题的大话地产论坛在太原举行,盛高、得
大规模并行模拟是研究大数据体系结构的重要方法,对大数据应用及众核体系结构的发展有着不可替代的推动作用.然而,目前的模拟技术不能满足大数据体系结构研究的需求,主要体现
会议
四川省科委于1998年4月28日在邮电部第五研究所主持召开了专家评审会,对我所“具有VS接口的数字用户环路传输系统”今报国家级新产品进行评审。评审会由省科委计划处李处长主
针对时空轨迹大数据广域网分布存储条件下的群体行为模式挖掘问题,本文基于MapReduce和ACO (Ant Colony Optimization)算法提出可在广域网环境分布并行增量执行的DPIA(Distri
会议
面对大数据大容量、高速率和多样性的特点,传统关系型数据库不再能满足处理海量非结构化数据的需求,越来越多的数据中心开始使用以NoSQL数据库为主,多个数据存储组件相互协同
在高速主干网络中,随着网络链路速率的不断提高和网络流数量的急速增加,同时受到硬件计算和存储资源的限制,如何及时、准确地在海量数据中,有效的检测出其中的大流信息,成为
会议
全球数据量爆炸式增长,单节点重复数据删除系统已不能满足性能需求,集群重复数据删除系统应运而生.如何提高数据传输效率、节约网络带宽和增强系统的可扩展性,成为当前面临的
会议
随着物联网、云计算等技术的不断发展,产生的数据也以爆炸式的速度不断增长,如何在大数据中进行挖掘和分析成为了当前学术界研究的热点Hadoop分布式计算也因此逐渐成为了大数
会议
ITU-TSG15(传送网、系统和设备)于1998年10月12日~23日在瑞士日内瓦ITU总部召开了(1997~2000年)研究期第3次会议。参加会议的有来自30个国家的23个电信主管部门、26个认可的电信运营