论文部分内容阅读
电力变压器是输变电系统的核心设备,其运行状况将直接影响电网的安全稳定运行。为及时有效地发现设备潜伏性故障,前人多融合丰富的结构化数据,评价部件及整体运行状态。然而,在变压器运维过程中,运检人员以文字形式记录了变压器的故障部位、故障表现、检修措施等非结构化信息,并存储在工作票和操作票中。这些信息不仅反映了设备的历史工况趋势,而且包含各种潜在的故障信息,是对其他结构化数据的重要补充。然而由于文本结构的复杂性及文本语义的模糊性,此类数据依旧处于待开发状态。为了实现状态检修,有必要建立变压器运维文本信息挖掘模型,并融合结构化和非结构化数据,进行全面的设备状态监测和运行风险评估。
本文研究了不同结构数据对应的信息挖掘模型。对于运维文本的信息挖掘,提出文本分词、去除停用词、生成分布式词向量等文本预处理方法,用于获取高质量模型输入集合;建立基于深度语义学习的文本挖掘模型,基于端到端的模型架构提取文本深层语义;归纳运维文本的特点,并提出针对性的模型优化措施。对于结构化数据的信息挖掘,提取最能反映变压器运行状态的特征指标量;考虑到设备状态与时间的相互关联性,建立基于时序特征的动态数据分析模型;引入条件熵,给出相关数据间的时间依赖性分析;基于迁移学习提出故障数据的有效自学习策略,从而克服故障数据集样本数量不足的难题。
此外还提出异构数据的融合模型。通过softmax分类层,输出设备故障等级的概率分布,结合国网设备状态检修准则,分别获得非结构化文本和结构化数据的健康指数;提出健康指数刻画的变压器状态变化时序图,引入单元健康周期,描述故障事件的周期动态过程;建立比例故障率模型,用偏似然理论估计故障率,求得在全寿命的不同时刻下,变压器的故障发生率和部件劣化率,从而预测设备潜在的发展趋势。
基于电网真实记录数据的案例表明:在文本挖掘中,采取针对性优化策略后,表征模型性能的指标提高2.64%-6.13%;投影至二维空间的特征向量具有良好的类别区分特性,模型具有优秀的特征提取能力。基于结构化数据进行分析,分类准确率为91.67%,基于结构化数据和非结构化数据进行分析,准确率为96.67%。后者相较于前者,准确率提升5%,验证了所提故障风险识别体系的有效性。全寿命状态评价时刻图不仅可以有效的刻画各时刻健康指数,还能有效反映故障发生的时刻、劣化程度、处理故障时刻、潜伏性故障等重要故障信息,是进行设备故障风险识别的有效辅助工具。
本文研究了不同结构数据对应的信息挖掘模型。对于运维文本的信息挖掘,提出文本分词、去除停用词、生成分布式词向量等文本预处理方法,用于获取高质量模型输入集合;建立基于深度语义学习的文本挖掘模型,基于端到端的模型架构提取文本深层语义;归纳运维文本的特点,并提出针对性的模型优化措施。对于结构化数据的信息挖掘,提取最能反映变压器运行状态的特征指标量;考虑到设备状态与时间的相互关联性,建立基于时序特征的动态数据分析模型;引入条件熵,给出相关数据间的时间依赖性分析;基于迁移学习提出故障数据的有效自学习策略,从而克服故障数据集样本数量不足的难题。
此外还提出异构数据的融合模型。通过softmax分类层,输出设备故障等级的概率分布,结合国网设备状态检修准则,分别获得非结构化文本和结构化数据的健康指数;提出健康指数刻画的变压器状态变化时序图,引入单元健康周期,描述故障事件的周期动态过程;建立比例故障率模型,用偏似然理论估计故障率,求得在全寿命的不同时刻下,变压器的故障发生率和部件劣化率,从而预测设备潜在的发展趋势。
基于电网真实记录数据的案例表明:在文本挖掘中,采取针对性优化策略后,表征模型性能的指标提高2.64%-6.13%;投影至二维空间的特征向量具有良好的类别区分特性,模型具有优秀的特征提取能力。基于结构化数据进行分析,分类准确率为91.67%,基于结构化数据和非结构化数据进行分析,准确率为96.67%。后者相较于前者,准确率提升5%,验证了所提故障风险识别体系的有效性。全寿命状态评价时刻图不仅可以有效的刻画各时刻健康指数,还能有效反映故障发生的时刻、劣化程度、处理故障时刻、潜伏性故障等重要故障信息,是进行设备故障风险识别的有效辅助工具。