论文部分内容阅读
近年来,数据挖掘已成为人工智能和数据库等研究领域的一个热点。数据挖掘技术在国外早已被应用于零售业的销售预测和分析、金融业的客户信用分析及客户欺诈分析、电信业的客户价值分析和销售预测等方面,但在国内由于以上行业的发展和管理尚处于粗放阶段,与国外有一定的差距,客户基础资料正逐步完善,利用数据挖掘技术进行分析和预测尚不多见,特别在电信运营领域利用数据挖掘技术进行客户特征分析及客户价值分析仍为空白。论文对数据挖掘的基本方法之一聚类技术进行了较全面的比较研究,并利用改进的聚类算法来细分电信业客户,从而达到可识别具有相似特征的客户群,成为分析客户和形成市场策略的基础,真正做到在恰当的时间,通过恰当的渠道,为恰当的客户提供恰当的服务,以满足其需要和愿望。本文主要研究工作与特色有:1) 本文提出了一种新的层次聚类方法。受到CURE算法的启发,采用多个中心点来有效地表示一个类。与CURE算法不同,本文的算法首先采用划分方法将数据分成原子类,然后以这些原子类为基础,实行自底向上的层次聚类得到最终的聚类结果。本文的方法不仅能识别任意形状、大小的类,可有效过滤“噪声”数据外,时间复杂度也很低(为0(n))。2) 针对现有的绝大多数聚类算法在低维数据上表现较好,但在处理高维数据时聚类质量下降的缺陷,为满足电信行业的数据量大、维度高的特点,受CLIQUE算法研究工作的启发,采用子空间模型,提出了一种实用而且高效的聚类模型。该算法基于子空间分析,力图避免需要事先人为确定的参数,同时提高时空效率和信息处理的性能。尽管本章得到了CLIQUE算法的启发,但是,本文提出的聚类算法除了与CLIQUE算法有许多的不同点、对其进行了较大的改进以外,自身还有诸多国内外现有的研究工作中所没有的创新内容。本文提出的算法采用自顶向下与自底向上相结合的方式,先将整个样本集作为一个类,在某些坐标维上,运用本文提出的层次聚类算法来对整个样本集进行初步的划分,然后根据其他维确定是否对这些类进行进一步的划分,最终生成对输入样本集的非对称层次聚类结果。其次,本文提出的算法无须事先指定参数值。同时较好地解决了对不同密度的类区别对待,识别样本数量较少的类的问题,算法的复杂度低于CLIQUE算法。3) 成功地将此分层聚类算法应用于电信业客户细分。通过对用户资料、通话行为、服务行为等相关的属性进行数据挖掘,分析各用户群的通话行为特征与