论文部分内容阅读
数据挖掘(Data Mining),又称知识发现(KDD),是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。其中聚类和神经网络是数据挖掘中最常用的两种算法。论文主要研究了K-means聚类算法和BP神经网络,并将它们结合起来应用于电信业客户消费模式的研究。聚类是一个将数据集划分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度,而不同组中的数据对象则是不相似的。K-means算法是聚类算法中主要算法之一,是一种基于划分的聚类算法。该算法随机选取K(K为聚类数)个点作为初始聚类中心,通过一个迭代过程完成聚类。如果初始聚类中心选取不合理,就会误导聚类过程,得到一个不合理的聚类结果。论文对K-means算法中初值的选取方法进行了分析和研究,提出了一种新的选取初始聚类中心的方法,提高了聚类准确率。此外,BP算法作为最常用的神经网络算法也是论文研究的重点之一。虽然BP网络预测模型结果不错,但是单纯的BP算法自身存在着一些不足:(1)易陷入局部极值;(2)遗忘已学样本的趋势;(3)学习效率不高,收敛速度慢等。论文将模拟退火(SA)算法来优化BP网络,很好地避免了BP算法的收敛速度慢,易陷入局部极值点的问题。通过实验分析,取得了很好的预测效果。因此,论文首先利用统计学相关分析方法去除建模中的冗余字段,然后建立了一种基于聚类分析和神经网络算法的分类预测模型,并将所建立的分类模型应用到电信业客户消费模式中去,预测出每一位客户最终所属的消费模式类别,能够帮助客户服务人员按照每一类客户群体消费行为的特点提供相应的服务和采取针对性的营销策略,从而根据潜在客户消费模式,对现有客户提供更好的服务,同时发掘出潜在客户及需求,最终为公司带来更大的利润。