基于Hadoop的电网数据质量校验方法与验证系统

来源 :第二届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:Oom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在诸多电网数据处理应用中,电网数据质量监测是电网大数据处理业务中最重要的一个环节.随着电网数据规模和数据质量校验规则数量和复杂度的不断增大,目前现有的基于传统数据库系统和计算平台的数据质量校验系统的处理能力已经出现严重的瓶颈,难以快速完成数据质量的监测和校验,且系统难以扩展,越来越难以满足日常的生产管理和经营决策的需求.大数据技术为解决电网大数据处理提供了良好的技术手段和支撑平台.为此,本文提出了一种基于大数据的电网数据质量校验解决方案,研究设计了基于Hadoop平台的分布式数据存储管理和并行化校验规则执行技术,选择批量和增量数据质量校验典型场景,进行了验证性研究,设计实现了针对数据校验的索引存储机制,对校验规则相关的属性建立快速索引,并进一步设计实现了基于HBase和MapReduce的并行化校验规则执行算法,使得数据质量校验的处理性能得到显著提升.在此基础上,基于验证性数据集和校验规则实现了一个验证性系统,实验结果表明,所提出的技术方法可以有效地提升数据质量校验处理性能,可满足实时/准实时电网数据数据校验需求,并且提供了一种具有良好可扩展性的系统解决方案.
其他文献
多数肾小球肾炎是免疫介导性炎症疾病.一般认为,免疫机制是肾小球病的始发机制,在此基础上炎症介质(如补体、白细胞介素、活性氧等)参与下,最终导致肾小球损伤和产生临床症状
会议
肾藏精是中医藏象理论的重要组成部分,长期有效指导着临床应用.本文从免疫功能、神经内分泌、干细胞等现代医学生物知识诠释了肾藏精的科学内涵.“肾主骨、生髓”,先天之精与
会议
结合多年工作的实践经验,对目前冷再生沥青路面结构设计的若干问题进行了分析,并提出了一些见解,谨供大家作参考之用。 Combining the practical experience of many years
为了在进行数据质量控制时,考虑数据的具体特征以提高数据质量,分析了当前基于贝叶斯网络进行数据质量控制的模型、改进模型及其效果.针对字段之间存在"隐马尔可夫"关系的数
会议
慢性肾脏病(CKD)是一种进展性疾病,最终可能发展为尿毒症,需要依靠透析或肾移植等替代治疗方式维持生命,给社会和家庭造成巨大负担.尿毒症前期是CKD防治的一个关键阶段,是延
会议
当前英语在全球的普及率以及应用率使得青少年必须重视英语的学习,尤其是小学阶段是学习语言的重要阶段,学生对于英语的兴趣很大一部分是在此阶段激发的,因此作为小学英语教
2012年KDIGO发布的"肾小球肾炎临床实践指南"中将激素抵抗型肾病综合征(SRNS)定义为:儿童经单纯激素[2mg/(kg·d)]治疗8周、成人经单纯激素治疗[1mg/(kg·d)]16周后仍不能缓
会议
随着当前社会"亚健康"人群的增加,症状自查服务显得愈发重要.各地基于居民健康档案的区域卫生信息平台的建立,为症状自查服务实现提供了数据基础,但是我们仍面临着海量电子病
会议
社会网络中影响力传播的有效抑制是社会网络影响力传播机制研究所关注的问题之一.针对未知影响传播源,或传播源信息具有不确定性的情况,提出面向不确定性影响源的影响力传播
会议
传统单机领域术语抽取系统的扩展性已经成为基于大规模语料库进行领域术语抽取的瓶颈.对此提出了一种基于Hadoop分布式平台的统计与规则相结合的无监督的专业术语抽取算法,该
会议