论文部分内容阅读
随着电信行业竞争的不断加剧,数据挖掘作为一种知识提取和决策支持的手段,已得到了广泛的应用。然而,由于电信企业数据采集系统人为和非人为的扰动,造成各个数据源的数据质量参差不齐,加之数据仓库的ETL机制本身的某些问题,导致在数据集成时发生数据缺失和错误,造成数据的整体质量不高,从而对数据挖掘的结果产生影响。因此,合理地解决上述问题,提高数据挖掘的准确性和效率,利用数据挖掘技术促进电信领域各类业务的正常运行,具有重要的实际意义。虽然人们对电信领域的数据挖掘技术进行了近十多年的研究,提出了若干技术并试图解决电信领域数据挖掘技术在应用中遇到的各类问题,但这些技术并没有很好地适应电信领域数据复杂多样和规模庞大的特性。本文以电信实际业务数据特征为研究对象,以提高电信领域数据挖掘效能为研究内容,从数据挖掘方案的实用角度出发,深入研究了可满足电信领域数据挖掘准确性、效率和决策支持等多方面需求的数据挖掘技术。本文的创新工作主要包括以下几个方面:首先,结合电信数据规模异常庞大,管理极具复杂性的现实情况,提出一种高效、准确的数据挖掘方案。为了提高K均值方法知识发现的准确性,分别提出运用遗传算法优化初始值空间,以及通过加权方式获得子空间内最有价值知识的方案。其次,按照电信领域知识发现的实际需求,在面临数据规模呈几何模式增加时,数据挖掘算法的效率会持续下降,数据挖掘网格作为一种有效的解决手段,提出了基于网格技术的并行计算调度方案,并对方案进行了性能分析。最后,随着3G网络时代的快速发展,电信用户网络访问行为数据规模以每天几十T级的数量激增,传统的计算方式早已无法适应这种数据场景。引入Hadoop平台等云技术手段,合理解决数据存储问题。从实际的应用角度出发,设计出对应的数据挖掘算法。提出了对传统的决策树SPRINT算法进行改进,提出了并行化计算方案,并成功应用到Hadoop平台。