论文部分内容阅读
在电网智能化建设进程中,电网状态监测系统庞大,监测数据的数量呈指数增长,数据处理问题变得困难。流处理平台Storm平台可以实现实时的处理数据,但是数据分类的模型需要提前进行训练,论文主要在Spark平台上对电力设备监测数据分类模型研究。论文提出了两种分类模型,第一种分类模型利用三比值法将连续的变压器数据变成离散的数据,用随机森林对这些离散的数据进行分析、训练;训练出来的分类模型再用标准测试数据集和变压器油中溶解气体数据集对其进行准确率测试。为了体现Spark平台相对其它平台的优势,又选用了Hadoop上的模型进行性能对比,均有优异的表现。第二种分类模型引入了互联网中使用比较多的Xgboost算法,并对算法的原理做了推导,根据算法的原理,引入到变压器故障分类中,作为分类模型进行训练,并分别用标准数据集和变压器油中溶解气体数据集对分类模型的分类结果准确率进行了测试。同时提出了在Spark和Storm之间模型应用PMML进行数据传输的方法。论文提出了三比值和随机森林相结合的并行变压器故障分类模型,和三比值化后运用Xgboost故障分类模型,对Storm电力设备数据流处理平台分类模型的选择具有重要的意义。