论文部分内容阅读
在石油、化工等过程工业的生产实践和科学研究中,会产生大量的原料、产品、设备、工艺和操作信息等方面的数据。提取这些数据中包含的知识,即过程工业数据挖掘,是过程系统工程的重要研究领域,也是模拟、监控、优化、故障诊断等工业实际应用的基础。过程工业数据挖掘的主要难点包括:如何建立适用的数据挖掘算法,这些算法能够适应过程工业数据的复杂特性,如大数量、高维数、强相关性、包含噪音、动态性等;如何将这些算法整合为从数据到知识的挖掘系统,使它们能协调工作,解决实际问题。
常减压精馏装置是原油炼制系统中的重要组成部分,具有一般连续石油化工生产过程的各种典型特性。该文以此为主要背景,研究过程工业中的数据挖掘。
为了得到数据集中不同属性间的关联关系,该文采用数量型关联规则提取的方法。在基于Apriori搜索的基本算法的基础上,提出了从原始数据集到目标数据集的有效映射的概念,可同时完成格式转换和信息传递,适用于各种类型数据的挖掘;提出了模糊分配系数,根据此系数确定模糊离散化的参数,可以简单有效地控制离散化中的模糊程度,减少分段和边界值等偶然因素对结果的影响。
针对过程工业数据的动态特性,进行了以下研究:采用时间窗口上的差分方法,提取多维时间序列的趋势变化信息并建立规则;将频繁项集上的Apriori性质扩展到项集处于不同时间点的情况下,完善了事务间关联规则提取的算法理论,并采用该算法分析时间轴上的属性间变化的因果性;文中还讨论了系统特性对不同时间尺度下的规则的影响,以及多维关联规则中的混合有效映射和规则的评价标准。
为了解决复杂的实际问题,建立了以多个功能模块整合而成的过程工业数据挖掘系统,并将它应用于以下两个问题中:在药物设计中,确定结构参数与活性间的关联关系;利用DCS数据,分析常减压精馏装置的运行特性,并建立侧线润滑油产品粘度的经验模型,利用数据挖掘的结果可以减少输入参数,选择合适的训练样本,保证模型的精度。这些结果验证了数据挖掘系统的有效性。