论文部分内容阅读
聚类分析作为数据挖掘的核心技术之一,是分析数据并从中发现有用信息的一种手段。在乙烯裂解过程中原料变化种类多,其原料分析仪因价格昂贵工业现场很少配备,为此实现油品属性的在线识别对实现裂解过程在线优化具有重要意义。模糊C均值聚类(FCM)方法是基于目标函数的聚类方法,它以某个权值属于各个类,具有收敛速度快、算法简单以及能够处理大规模数据等特点,因此受到了学者们普遍关注,已经成为数据挖掘领域的主流研究方向。然而传统的FCM方法仍无法克服如初始中心敏感,易陷入局部最优、隶属度求取基于欧氏距离带来聚类的单一性等问题,为此本文从初始中心选取、隶属度设置等方面进行了算法性能改进与分析。主要研究工作和创新如下:1.针对传统模糊C均值聚类算法对初始聚类中心较为敏感的问题,提出了基于融合指标初始中心优化的模糊C均值算法。即结合几个具有代表性的聚类有效性指标构造融合指标,选择最好的历史聚类中心替代新样本的初始中心。该算法充分利用历史信息中的先验信息,优化了初始中心选择过程,提高聚类收敛速度和准确性。2.针对传统模糊C均值算法隶属度的求取是基于欧氏距离,其算法只包含均值中心,带来聚类效果的单一性问题,本文提出了基于混合概率模型的模糊隶属度设置方法,即通过建立混合高斯模型实现对聚类样本隶属关系的概率分布描述,并利用EM算法进行模型参数的极大似然估计。该算法可在考虑样本均值中心的前提下,进一步有效利用样本协方差与权重系数信息进行模式判别。3.针对油品原料特征属性多,不同属性对产物收率影响不同的问题,利用逐步回归算法对油品原料特征属性进行提取,找出影响产物收率的主要特征属性;同时结合提取的特征属性,实现改进FCM算法在油品原料上的聚类,并通过收率分析验证了改进聚类算法的有效性与一致性。