论文部分内容阅读
数据挖掘作为一个新型的跨领域的综合性学科,一经出现便显示出其强大的生命力。统计学、数据仓库和机器学习技术共同构成数据挖掘的三大核心技术,统计方法也是最基本的数据挖掘方法之一,它渗透于数据挖掘领域的各个阶段。但从目前国内外的研究现状看,从事数据挖掘研究的主要是计算机领域的学者和专家,统计学界的学者和专家对数据挖掘的研究相对较少。而随着数据存储技术的不断发展,可用于数据分析的数据量越来越大,对传统的统计分析技术提出了极大的挑战。
本文尝试从统计学的角度对数据挖掘进行应用性研究,使统计学方法适应数据量变化,继续发挥其处理数据、分析数据的重要作用,并期望能对统计学理论在数据挖掘方向的发展做出探索。
首先,针对目前数据挖掘大多侧重于算法设计及实现的现状,本文着重归纳总结了国内外统计学领域的专家、学者在数据挖掘方面的探索和取得的成果,奠定了本文的理论基础。然后分别从内涵、区别、联系等方面对统计学与数据挖掘的关系进行了详尽对比分析,以释清疑惑,明确本文的出发点。接下来着重从统计学的角度对数据挖掘中主要的技术和方法进行综述,其中既有对数据挖掘中使用的传统统计方法的概括,也有对其它领域的数据挖掘技术、方法的统计学角度的尝试性阐释,最后还给出了评价各种数据挖掘方法的统计学标准。
实证部分是本文的重点章节,在结构方面,依据统计学的理论框架分为了描述性数据挖掘与预测性数据挖掘两部分。在描述性数据挖掘中利用统计学的思维和方法对原始数据进行了大量探索性分析(一元分析、二元分析、多元分析),从而对待挖掘的数据有了一个整体的概括性了解,便于进一步明确挖掘的思路及所用的方法。随后将质量指标(电影评分值)与数量指标(观看数量)相结合并引进概率理论建立了用户类兴趣评价模型,实现了第一步的挖掘任务。在预测性数据挖掘阶段针对现有聚类方法及统计软件无法实现动态聚类的不足,根据聚类分析的基本思想及此次挖掘任务的特殊要求提出了改进后的动态聚类分析方法,并将其利用MATLAB编程实现。另外,在整个挖掘过程中为适应各种挖掘方法的需要,对数据进行了一系列的创造性的编程处理,随后综合运用了当今的主流统计软件SPSS15.0以及数据挖掘软件SPSS Clementine12.0、SQL2005 Busyness Miner、Markway3.0,进行了关联规则挖掘及决策树的建立并用于预测,对于上述软件无法解决的任务同时辅以MATLAB7.0编程来综合实现。
统计学如何为数据挖掘服务,这是在“数据挖掘”飞速发展的今天,统计工作者必须回答的一个问题。随着统计学与现代信息技术的融合,数据挖掘技术与统计学的集成已成为必然的趋势,也必定会为统计学和数据挖掘未来的发展开辟一片新的天地。