内存计算环境下存储层容错和优化策略研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:skylong5257
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的飞速发展,大数据的规模日益剧增。为了应对大数据带来的挑战,能够提高任务执行效率的内存计算成为关注的热点。对内存计算而言,提供高可靠性和高效的内存存储层是当前需要解决的关键问题。本文通过研究内存计算存储层的容错和优化问题,来提高存储层可靠性和内存有效利用率,进而实现提高内存计算整体执行效率的目标。本文主要研究内容包括:(1)内存计算概述介绍了内存计算的概念、分类和典型应用,归纳总结了内存计算存储层容错和内存优化方面的研究现状,讨论相关方法和现有研究。并对典型研究对象内存计算框架Spark的概念、架构、应用和待优化问题进行阐述。(2)内存计算环境下基于RDD关键度的自动检查点策略研究在容错机制方面,Spark通过血统(lineage)将任务重新计算,实现数据恢复。当血统过长或具有宽依赖操作时,计算开销较大,所以数据恢复的开销也会显著增加。因此需要为Spark中执行的任务设置检查点,实现快速恢复。然而现有的Spark检查点机制,要求用户或程序员根据经验选择检查点,具有一定的风险和随机性,并不能很好的符合任务的特性,降低恢复开销。本文针对上述问题,分析Spark的作业执行机制,建立了任务执行模型、检查点模型和恢复模型,给出了弹性分布式数据集(Resilient Distributed Datasets,RDD)关键度的定义,提出了算法的优化目标。根据模型的相关定义求解,设计了基于RDD关键度的自动检查点策略,通过血统长度、操作类型复杂度和时间开销计算关键度,设置适合的检查点,有效缩减恢复过程的延时;并通过检查点清理算法,清理不需要的检查点。实验表明:我们的算法提高了检查点策略的合理性,优化了内存计算框架的作业恢复效率。(3)内存计算环境下的数据失效恢复算法研究在Spark中实现高效的失效恢复策略,不仅能够减轻程序员的编程负担,更能有效提高群集的计算效率,应对突发性的宕机风险,增加系统的可用性。此外,现有的失效恢复算法未考虑RDD特性、集群性能和数据本地性等因素,会导致系统恢复效率较低。本文通过对内存计算框架的任务执行机制,建立执行效率模型,给出了RDD执行时间、计算代价和作业执行时间的定义。证明这些定义与任务恢复效率的逻辑关系,为算法设计提供基础模型。在对代码语义分析,获得作业详细信息的基础上,对失效恢复策略进行了优化。利用失效恢复模型和权重信息设计检查点设置算法和失效恢复算法。实验表明,算法可以提高作业的恢复效率。(4)基于存储区最小化和执行区按需分配的内存优化策略研究为了提升任务执行效率,在不影响RDD重用和任务执行效率的情况下,应尽量减少存储区(Storage memory)所占用空间,以保留更多内存空间给执行区。与此同时,执行区(Execution memory)根据活动任务的内存需求量情况进行分配,提高与任务的契合度。因此,本文对Spark内存模型进行分析,对内存可分配量、作业执行时间、数据倾斜度、执行区需求量、执行区可分配量、执行区溢出量、任务公平度等定义,并在此基础上,提出基于存储区最小化和执行区按需分配的内存优化算法。存储区选择更有价值的RDD作为缓存,并及时清理。执行区根据任务输入数据的大小决定内存分配量。在略微修改Spark源码的基础上,该策略能够降低存储区缓存缺失率和执行区磁盘溢出量,从而提高作业执行效率的目的。(5)内存计算环境下基于小文件合并的内存优化算法研究为了减少集群主节点内存消耗和作业开销,必须减少文件的数量,尽量使用大文件的数据。本文从小文件的方面出发,考虑内存优化问题,提出小文件分组和合并算法,通过对多个小文件进行一次预处理,即将多个小文件合并,以大文件作为输入数据。在不影响迭代效率的情况下,尽可能的减少对内存空间的占用,从而提高内存资源的有效利用率。实验结果表明:算法可以提高内存的有效利用率。(6)内存计算环境下基于索引结构的内存优化策略研究为了解决哈希存储结构带来的读取访问效率低、索引开销大的问题,本文提出了索引结构优化策略,该策略在不影响原系统性能的情况下,利用基于熵编码的排序存储,在系统空闲时段,将哈希存储中的数据根据键(key)进行排序,并为其建立排序索引和查找树。实验结果表明:系统能够提高用户读取访问效率,同时降低内存开销。
其他文献
MapReduce是目前最流行的云计算框架,其调度优化问题一直是云计算领域的重要研究问题。MapReduce调度优化的主要目标是,提高MapReduce作业的运行效率。针对这一目标,本文研究
多核体系结构是目前工业界和学术界的研究主流。多核体系结构的一个重要方面是Cache一致性协议设计,Cache一致性协议的优劣对系统的性能有重要影响。传统的Cache一致性协议包
为研究核爆条件下土中钢质圆柱壳动荷载的计算问题。采用核爆模拟装置进行了爆炸荷载作用下密实砂土内钢质圆柱壳模型试验,得到了有关动压力的时程曲线。试验表明钢质圆柱壳
第一条 为规范应用大孔吸附树脂分离纯化工艺生产的保健食品审评工作,确保保健食品的食用安全,根据《中华人民共和国食品卫生法》和《保健食品注册管理办法(试行)》,制定本规定
一座城池之所以著名,或曾有美人倾国倾城,或因一阙诗词壮丽。欧登塞这座城市,便得益于她养的好儿子,那个善解童意、写出启迪稚子心灵之章的童话大师安徒生。欧登塞是安徒生的
提升企业竞争力,有很多途径。但争当社会公民,重视企业的社会责任,无疑是一条捷径。因为提倡社会责任不仅仅能提升企业社会形象,更能获得进入国际市场的通行证,提升企业的长期盈利
当前,财务管理工作的质量,对于行政事业单位的发展具有重要的现实意义。不但可以有效的保证财务资金的安全性,同时还有助于预防贪污腐败的行为。针对当前财务工作的发展来看,
前言改革开放以来,我国经济发展迅速,国际竞争力日益增强,然而在新常态下,区域发展不充分、不平衡等问题日益显现,致使现阶段我国经济发展滞缓.随着一带一路的提出和自贸区的
期刊