基于MapReduce的分布式编程框架的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wmf_china
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一个拥有广大用户群的桌面产品,腾讯公司QQ电脑管家每天都会产生海量的用户数据。后台中心对于用户数据的处理与分析对于改进产品具有重大的意义。公司数据平台部的计算资源需要支持核心业务因而申请成本高,所以搭建一个灵活有效的分布式计算框架,利用空闲的开发机计算资源来完成日常统计与数据处理工作具有较高的实际意义。MapReduce作为一个海量数据处理的架构被广泛用于各大领域之中。本文通过对于MapReduce架构的研究,进而提出并设计实现了一种基于MapReduce的分布式编程框架来简化对于日常海量数据处理的编程工作,以满足管家后台的数据处理需求。在设计与实现过程中,重点放在了此编程框架的任务调度与容错功能上面,以期待获得良好的错误恢复能力。在功能测试方面,本文使用一个QQ加速状态上报的词频统计程序来进行测试,并人工对一个处理节点施加障碍以验证容错机制是否可以探查到落后任务的产生。在性能测试方面,本文使用了词频统计程序与记录排序程序来模拟日常需求中的统计与数据处理问题。基于这两个测试程序对本框架的任务响应时间,总机器时间与加速比进行了分析,以证明本编程框架的确具备处理海量数据的能力。通过以上完成的工作,本框架可以搭建在后台中心的开发机群上以完成管家日常统计工作与数据处理工作的计算任务,并具有良好的计算能力、容错性与可扩展性。
其他文献
2008年金融危机让影子银行进入中国金融监管视野,而应对金融危机让影子银行得到迅速发展。影子银行在补充传统信贷方式同时也对金融稳定产生较大负面影响。在混业发展、综合
知识产权有广义和狭义之分。狭义的知识产权即传统意义上的知识产权,包括著作权(含邻接权)、商标权和专利权,后两者又被合称为工业产权。广义的知识产权包括著作权、与著作权
民族预科教育是我国高等教育的一种特殊层次,是我国民族高等教育不可缺少的重要组成部分。为适应21世纪中国少数民族和民族地区对高等教育发展的需要,民族预科教育必须立足于
毛泽东论《金瓶梅》及对其研究的意义蔡琼一、毛泽东什么时候看过《金瓶梅》毛泽东什么时候开始接触《金瓶梅》的呢?目前尚无明确的史料记载。何况《金瓶梅》是一部“暴露黑暗
2008年全球金融危机之后,影子银行问题开始进入人们的视野并备受关注。这一阶段,我国影子银行发展迅猛,银信合作、委托贷款、地下钱庄等影子银行模式在金融行业中其规模所占
对灵芝的免疫调节、抗肿瘤、抗衰老、心血管系统活性、护肝解毒、镇静、降血糖等方面的药理作用进行了综述,充分展示了灵芝的补益强壮作用,为灵芝的临床应用开辟了广阔的前景
随着我国经济结构的调整,家族企业粗放式的生产经营模式受到了日益严峻的挑战,企业所面临的风险日益多样化、复杂化。当家族企业经营者由于“短视”或激进的投资决策给企业带
大数据是互联网时代产生的格式各异、结构各不相同的数据的统称,具有数据量极大的特点。随着互联网在各个领域的深入普及,大数据产生的速度越来越快,呈现指数增长。近年来,人
世博会面临转型需求,本次上海世博会的非物质文化遗产展演,开拓了地域形象展示的空间,而把展示地域形象作为非物质文化遗产的基本功能,又为非物质文化遗产保护找到了新的途径
通过对改革开放以来我国民营工业企业空间布局的特点、演化趋势以及内在原因的深入分析,认为在我国民营经济的发展初期,由于成本和政策环境问题是企业发展的关键,我国民营经