面向数据处理编程框架的资源管理系统

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:zwj_10061
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网上应用种类急剧增多,数据量急剧增大。在这种条件下,用于大规漠数据处理的分布式计算获得了飞速发展。MapReduce编程模型的提出推动了分布式编程模型的发展。很快Yahoo!根据Google的架构实现了支持MapReduce的开源框架Hadoop,Hadoop以良好的稳定性和扩展性在学术界和工业界得到广泛的应用和推崇。自此之后各种各样的面向海量数据处理的编程模型框架开始涌现。多种数据处理编程框架的出现对现有的集群资源管理系统提出了挑战,传统的集群资源管理系统与数据处理编程框架的模式不相匹配,二者的结合存在很多困难,另一方面编程框架的集群专用性使得编程框架之间的数据共享存在诸多困难。   本文通过对支持多编程模型框架的资源管理系统的相关研究的细致分析对比,总结出集群资源管理系统的关键技术,并在对各种编程框架的研究和分析基础上,针对现今的资源管理系统的缺陷设计并实现了一个面向数据处理编程框架的资源管理系统,支持多种编程框架共享集群资源,解决目前的资源管理系统普遍存在的缺陷。主要研究内容及贡献如下:   1)提出了一种面向编程框架的资源自动伸缩的机制,通过实时监控编程框架的资源使用情况为编程框架自动伸缩资源,使得编程框架不需要做任何修改就能接入,极大地减轻了编程框架开发人员的负担,具有良好的兼容性和灵活性,方便用户使用。   2)提出了一种面向编程框架的轻量级资源虚拟化方案,通过基于Linux Container的虚拟化方案管理编程框架的CPU和内存资源,使得多个编程框架之间的资源互相隔离、互不干扰,同时尽量降低虚拟化带来的开销,从而保证各个编程框架的性能。   3)提出了一种面向多种资源的关键资源匹配算法(DRBF算法),通过减少集群内的资源碎片,提升系统吞吐量,提升集群的资源使用率。   4)最后设计并实现了一种面向多种数据处理编程框架的集群资源管理系统Cello,实现了上述的机制,并进行了详细的测试。通过测试验证Cello系统的资源自动伸缩机制的可行性,同时验证了Cello在保证编程框架性能的同时能减少集群的资源碎片,提高系统吞吐量,提升资源利用率。  
其他文献
森林资源调查和监测是研究地表植被覆盖状况乃至全球生态变化的重要内容,而森林区域面积的调查和统计又是森林资源调查和监测的研究重点。利用遥感卫星或航空飞机拍摄的高空间分辨率遥感图像,研究解决森林面积的估测问题,即对高分辨率遥感图像进行分类,进而提取出森林区域的部分,是本文的研究重点和主要内容。当前高分辨率遥感图像的分类主要是以计算机为主要工具的对遥感图像像素进行数值处理,从而达到分类识别地貌特征的目的
近年来,随着分布式数据处理技术和云计算的不断发展,数据中心从简单的服务器托管和维护的场所变成了具备海量数据计算和存储能力的网络集群,为大型信息系统提供海量数据处理和存
常识获取是人工智能领域的一个核心难题,其目标是构建面向应用的大规模常识知识库,以实现真正的智能系统。为了突破知识获取“瓶颈”,常识获取的方式经历了由人工编辑到自动
随着网络技术的不断发展,各式各样的网络中间设备不断涌现,发挥着越来越重要的作用。传统的基于专有硬件的网络中间设备具有价格昂贵、难于编程、难于管理等缺陷,网络功能虚拟化
民主是人类政治生活的主题,它关涉民主实践和民主价值。选举是实现民主的重要手段,也是民主政治的核心问题。时代的发展和科技的进步推动了选举制度的改革,而选举技术也随之不断
近些年来随着信息技术的飞速发展,网络技术深入到生活的方方面面,特别是在网络用户密集的大中城市,为了获取到便利的网络连接,各个城市都在努力建设高效、便捷的信息网络,无
作为面向内存的分布式并行计算框架,Spark非常适合于迭代式计算,但是飞速增长的数据量和日益苛刻的实时性要求使得Spark平台的性能优化已迫在眉睫。为了解决Spark平台CPU计算能
EAST数据系统是EAST聚变实验的重要组成部分之一,EAST数据系统主要包含四个部分:数据采集子系统、数据储存子系统、数据发布和分析子系统、数据可视化子系统。   现有EAST
知识工程使人工智能的研究从理论转向应用。知识工程以知识为基础,知识获取、知识表示和知识利用都是知识工程研究的基础课题。知识获取和知识表示的研究对人工智能理论和应
自上世纪70年代美国微生物学家伍斯(Carl Woese)率先使用核糖核酸(RNA)序列研究原核生物进化关系并发现古细菌开始,基于16S rRNA基因序列的分析便成为研究原核生物多样性以及