【摘 要】
:
数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有
【机 构】
:
哈尔滨工业大学计算机科学与技术学院,哈尔滨市中华人民共和国150001
论文部分内容阅读
数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导致性能的降低.因此本文的目的是对并行数据清洗过程进行优化从而提高效率.通过研究,发现数据清洗中一些任务往往都运行在同一输入文件上或者利用同样的运算结果,基于该发现本文提出了一种新的优化技术一一基于任务合并的优化技术.针对冗余计算和利用同一输入文件的简单计算进行合并,通过这种合并可以减少MapReduce的轮数从而减少系统运行的时间,最终达到系统优化的目标.本文针对数据清洗过程中多个复杂的模块进行了优化,具体来说分别对实体识别模块、不一致数据修复模块和缺失值填充模块进行了优化.实验结果表明,本文提出的策略可以有效提高数据清洗的效率.
其他文献
当前英语在全球的普及率以及应用率使得青少年必须重视英语的学习,尤其是小学阶段是学习语言的重要阶段,学生对于英语的兴趣很大一部分是在此阶段激发的,因此作为小学英语教
2012年KDIGO发布的"肾小球肾炎临床实践指南"中将激素抵抗型肾病综合征(SRNS)定义为:儿童经单纯激素[2mg/(kg·d)]治疗8周、成人经单纯激素治疗[1mg/(kg·d)]16周后仍不能缓
随着当前社会"亚健康"人群的增加,症状自查服务显得愈发重要.各地基于居民健康档案的区域卫生信息平台的建立,为症状自查服务实现提供了数据基础,但是我们仍面临着海量电子病
社会网络中影响力传播的有效抑制是社会网络影响力传播机制研究所关注的问题之一.针对未知影响传播源,或传播源信息具有不确定性的情况,提出面向不确定性影响源的影响力传播
传统单机领域术语抽取系统的扩展性已经成为基于大规模语料库进行领域术语抽取的瓶颈.对此提出了一种基于Hadoop分布式平台的统计与规则相结合的无监督的专业术语抽取算法,该
在诸多电网数据处理应用中,电网数据质量监测是电网大数据处理业务中最重要的一个环节.随着电网数据规模和数据质量校验规则数量和复杂度的不断增大,目前现有的基于传统数据
网络链接预测问题是链接挖掘的一个重要部分,指的是通过已知的网络结构数据预测网络中尚未连接的任意节点间产生链接的可能性.在大数据时代,互联网社会网络和其他复杂网络中
从临床上看血压正常轻度蛋白尿大多为隐匿性肾炎或称为无症状性蛋白尿病理学改变一般较轻,主要为肾小球轻微病变、轻度系膜增生性肾小球肾炎、局灶节段性肾小球肾炎。除了常见
从ADSL、HDSL、IDSL、RADSL到VDSL,令人眼花缭乱。用户管理系统(Subscriber Management Systems,SMS)技术有望减轻DSL对用户造成的困难,加快DSL普及的速度——
From ADSL, H
1-2.重庆国际机场室内设计3-5.北京温特莱中心室内设计6.山西五台山锦绣山庄大堂设计陈六汀室内设计作品@陈六汀$北京服装学院艺术设计学院正请下载后查看,本文暂不支持在线获