面向小作业并行编程框架的关键技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:DSCUMT
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着海量数据时代的来临,分布式数据处理系统己成为海量数据处理的解决方案。针对不同的应用场景,学术界和产业界推出了多个并行编程框架。通过对不同的并行编程框架研究分析,总结出编程模型是由处理逻辑、数据组织和传输模式三部分构成。随着应用逻辑的发展,现有的并行编程框架,很难实现处理逻辑、与应用相适应的数据组织和传输方式的快速定制。   根据实际生产集群下作业特征的分析,大部分作业为输入数据量较小、占有资源较少的小作业。因此,如何提高小作业的执行效率成为了并行编程框架面临的重要问题。目前,现有的并行编程框架,按需申请资源、进程级任务调度、数据存取和处理逻辑等方面,使得小作业处理效率较低。   本文针对并行作业逻辑表达、加快小作业执行效率两个方面对并行编程框架进行研究。针对小作业的特点,对任务调度机制、资源使用方式、数据存取和处理逻辑进行了优化,提出了一套通用的、编程可扩展的并行编程框架。总结一下,本文的主要贡献如下:   1.提出了可扩展的编程模型和作业逻辑表达模型。通过作业逻辑翻译器,实现不同作业逻辑到统一运行时环境的映射。通过定义隧道(Tunnel)的传输模式,可以快速实现编程模型与不同传输模型的灵活映射。   2.提出了面向小作业数据处理的分布式缓存和线程级任务调度机制。通过线程级任务的调度和部署,加快小作业的部署效率。通过以本地内存和消息队列为基础构建分布式缓存,提升了任务间数据共享和传输的效率。   3.提出了固定资源配置和动态资源可伸缩的资源使用策略。通过队列饱和度监控系统内的工作负载状况,并按照容忍区间的设置,动态调整分布式环境内工作节点的个数,提高资源按需伸缩的效率。通过测试,验证了该方案的有效性。   4.综合以上的研究和设计,实现了一套编程可扩展、资源可伸缩的分布式处理系统Binos,以及Binos-FileMR和Binos-HashMR两种MapReduce编程模型。通过数据存储、传输、处理逻辑等相关方面的优化,加速了小作业的处理效率。
其他文献
随着“低碳生活,绿色出行”概念的提出以及北京市各种公交优惠政策和私家车限行政策的出台,公交车成为了越来越人的出行代步工具,而北京市的交通路况复杂,公交车出行存在很多
学位
心脏疾病一直严重威胁着人们的生命,心电图广泛应用于心脏疾病诊断中。但是心电波形中的畸异波大大增加了计算机自动识别心电波形的难度和识别的准确性。本文提出了心电畸异
当今社会是一个信息爆炸的社会。一方面,由于离散的数据源的数量的增加,比如标签、博客、传感技术等等的发展,使得信息处理系统所需要进行处理的数据量大大增加。另外一方面,
伴随着数字控制技术、控制理论的发展以及伺服驱动器大规模的应用,伺服驱动器的使用、开发、调试技术已经成为伺服驱动器非常重要的研究问题,伺服驱动器是否具有较强的易用性、
晶体硅作为一种半导体材料,无论是工业生产还是日常生活都具有重要地位。在能源应用方面,晶体硅是生产太阳能电池的主要原料之一。太阳能作为一种清洁无污染的能源,很受人们欢迎
随着数码相机与智能手机的普及,以及社交网络的快速发展,图像与人们生活的联系越来越紧密。图像的快速传播与普及在给人们生活带来便利的同时,也给图像的处理、分析与理解带了巨
近年来,随着各种富因特网应用(Rich Internet Application, RIA)技术及工具的兴起,Web应用程序中的用户界面正由传统的超文本语义型向丰富多彩的桌面型转变。本论文就是采用
在当前互联网时代,如何便捷地从海量文本数据中获取有效信息是我们面临的巨大挑战。文本信息检索的主要任务是根据用户输入的查询语句,为用户找到最相关的文档。然而,由于用户的
随着通信与IT技术相结合的ICT应用的不断发展,人们越来越意识到了系统间融合的必要性。目前移动通信和物联网在各自的领域都有着较为快速的发展,天线是这两个系统都必须的信