论文部分内容阅读
近年来,随着传感器测量技术、通信技术和计算机技术等在智能电网中的广泛使用,相量测量单元、电能采集、数据采集与监控等系统产生了以指数级增长的数据,渐渐呈现出数据量巨大、种类多等大数据的特点,如何快速地处理这些数据,是智能电网所面临的重大挑战。大数据技术在智能电网中的应用主要集中在海量数据的采集存储、分析挖掘与可视化等研究领域。目前,大数据处理技术可以分为批处理与流处理两种模式。批处理系统具有先存储后计算、数据的准确性和全面性要求高等特点。流处理系统往往不要求结果绝对精确,而注重对动态产生的数据进行实时计算并及时反馈结果。数据流处理的特殊性以及大数据处理的时效性等各种限制使得传统的实时处理技术已不能够满足需求,因此,大数据的流式处理成为了研究学者和工业界的关注热点。本文首先分析智能电网大数据的来源,针对电力大数据的数据量大、种类繁多与速度快等特点,指出状态监测与电能计量等数据逐渐构成了大规模数据流。数据流具有实时性、易失性、无序性、无限性等特征,数据流的价值会随时间的流逝而减少。结合大数据处理技术,给出一种智能电网大数据实时流处理框架,采用流式计算系统处理海量数据,通过采集系统节点监听数据源变化并实时收集数据,利用消息订阅模式对数据进行缓冲与计算,满足状态监测异常检测与异常用电分析等业务应用对数据流快速分析需要。流式数据的实时处理是一个连续计算的处理过程,本质上是一种连续微批处理技术,将批计算的处理窗口设置为小时级、分钟级或秒级。以状态监测数据流的异常检测为例,在Storm流式计算框架下实现滑动窗口处理拓扑,对时序流数据进行阈值判断,提高数据处理的实时性,为大数据处理技术在电网中应用提供了一种思路。实验结果表明,在集群规模一定的条件下,适当的改变工作进程数以及执行器线程的并发数设置,可以降低滑动窗口的处理延时,提高状态监测异常检测的实时处理效率。