一种分层聚类模型及其在电信行业的应用研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:jianjiaomylove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘已成为人工智能和数据库等研究领域的一个热点。数据挖掘技术在国外早已被应用于零售业的销售预测和分析、金融业的客户信用分析及客户欺诈分析、电信业的客户价值分析和销售预测等方面,但在国内由于以上行业的发展和管理尚处于粗放阶段,与国外有一定的差距,客户基础资料正逐步完善,利用数据挖掘技术进行分析和预测尚不多见,特别在电信运营领域利用数据挖掘技术进行客户特征分析及客户价值分析仍为空白。论文对数据挖掘的基本方法之一聚类技术进行了较全面的比较研究,并利用改进的聚类算法来细分电信业客户,从而达到可识别具有相似特征的客户群,成为分析客户和形成市场策略的基础,真正做到在恰当的时间,通过恰当的渠道,为恰当的客户提供恰当的服务,以满足其需要和愿望。本文主要研究工作与特色有:1) 本文提出了一种新的层次聚类方法。受到CURE算法的启发,采用多个中心点来有效地表示一个类。与CURE算法不同,本文的算法首先采用划分方法将数据分成原子类,然后以这些原子类为基础,实行自底向上的层次聚类得到最终的聚类结果。本文的方法不仅能识别任意形状、大小的类,可有效过滤“噪声”数据外,时间复杂度也很低(为0(n))。2) 针对现有的绝大多数聚类算法在低维数据上表现较好,但在处理高维数据时聚类质量下降的缺陷,为满足电信行业的数据量大、维度高的特点,受CLIQUE算法研究工作的启发,采用子空间模型,提出了一种实用而且高效的聚类模型。该算法基于子空间分析,力图避免需要事先人为确定的参数,同时提高时空效率和信息处理的性能。尽管本章得到了CLIQUE算法的启发,但是,本文提出的聚类算法除了与CLIQUE算法有许多的不同点、对其进行了较大的改进以外,自身还有诸多国内外现有的研究工作中所没有的创新内容。本文提出的算法采用自顶向下与自底向上相结合的方式,先将整个样本集作为一个类,在某些坐标维上,运用本文提出的层次聚类算法来对整个样本集进行初步的划分,然后根据其他维确定是否对这些类进行进一步的划分,最终生成对输入样本集的非对称层次聚类结果。其次,本文提出的算法无须事先指定参数值。同时较好地解决了对不同密度的类区别对待,识别样本数量较少的类的问题,算法的复杂度低于CLIQUE算法。3) 成功地将此分层聚类算法应用于电信业客户细分。通过对用户资料、通话行为、服务行为等相关的属性进行数据挖掘,分析各用户群的通话行为特征与
其他文献
分析了数字化工厂的产生背景及发展趋势;研究了达索V6平台在现代工程建设领域的应用及特点;通过ENOVIA进行项目全生命周期管理,利用CATIA进行工业厂房布局设计,利用DELMIA/QU
近年来,随着全球对外直接投资规模的扩大,作为对外直接投资主要方式的跨国并购投资正受到各国的重视。与此同时,跨国并购对东道国带来的风险问题也开始被越来越多的国家所关
人们生活在环境空间中,环境空间设计的质量的好坏与人们日常生活有着直接的联系。特别是在竞争激烈,生活相对紧张的现代社会,一个完美的空间环境,应该是除了其自身的实用功能
多元化经营战略是企业成长过程中都将面对的重要课题。80年代中期以来,国内一些具有一定规模的企业也纷纷看好和采用多元化经营战略,开始向多元化经营的方向发展。10多年来,
通过整理前人对稀土尾砂治理的研究发现,具体的方法主要有两种:物理和化学方法的再利用、生物性的植物恢复和土壤修复。前者在我国还属于初步研究阶段,技术有待提高;后者则是
根据某型导弹发射训练实际,依据HLA联邦模型的开发步骤设计并实现了其仿真系统,包括开发其概念模型,建立FOM/SOM模型,生成FED文件。采用M?KRTI和M?KVR-Link、Vega实现了各联
<正>在现代文坛上,自学成才而又勤奋多产的沈从文既以散文见长,尤以小说著称,其代表作《边城》更是中国现代文学中的杰作。一、关于作者沈从文,原名沈岳焕,笔名还有休芸芸、
实验分别采用乙酸和乙腈作为沉淀剂对2个批次纯牛奶进行蛋白沉淀,发现采用乙酸不能有效地处理牛奶类样品中的蛋白,是由于样品不能沉淀分层,不能正常上机测试。而采用乙腈沉淀
本文根据交易效率损失与地理距离成正比这一假设,建立关于棉花产地、纺织服装加工地和最大服装需求市场的一般均衡模型.最优选址位置由棉花交易效率、纺织服装交易效率和需求
杨家埠木版年画是我国著名的三大民间年画之一,迄今已有400多年的历史,它是以木板套印为主要特征的地方艺术形式。作为中国黄河流域地道的农民画,它根植于民间,凝结了劳动人