论文部分内容阅读
本文深入研究了基于Hadoop和Spark在电力负荷预测中的应用,并采用了Mahout和Spark Mlib中的聚类算法,并于传统聚类算法效果上进行了比较。本文参考了R的开源聚类包,对曲线进行了聚类,这样可以对不同行业下的不同用户进行负荷曲线聚类,并且相对准确地建立模型,预测模型主要是采用了神经网络和支持向量机的算法,神经网络算法某些情况下会出现过拟合的现象,但是在短期负荷预测中,效果还是非常不错的,而支持向量机算法则相对神经网络算法不会那么经常出现过拟合的情况,在长期负荷预测中效果比较好,但在短期负荷预测中效果也不错,故本文采用两种算法分别重点介绍。在本文研究的模型基础上,根据研究短期负荷预测的实际情况和功能需求,本文利用软件工程的方法,对电力短期负荷预测系统的功能模块进行了划分,并对各个模块进行了详细的分析和说明。传统的算法在处理每天庞大的数据上即使满负荷运行也无法运行完当天的任务,故本文在Spark和Hadoop的大数据环境下采用了其开源的相关算法,来进行快速的处理。开发并实现了电力负荷预测系统,并用该系统对研究区域进行了总量负荷预测和空间负荷预测,通过预测的结果与实际情况对比,发现预测结果与实际情况基本一致,并且在运行速度上有较大优势。证明该软件具有很好的实用性。本文的创新点主要有三点:一、对用户按照大行业,小行业进行分类后,然后再对用户的负荷进行图形进行了聚类分析,较好地区分了用户类型;二、采用Hadoop、Spark进行负荷大数据进行预测;三、提出了一种整体的架构方案。