基于统计视角的数据挖掘应用研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:yuanxb2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘作为一个新型的跨领域的综合性学科,一经出现便显示出其强大的生命力。统计学、数据仓库和机器学习技术共同构成数据挖掘的三大核心技术,统计方法也是最基本的数据挖掘方法之一,它渗透于数据挖掘领域的各个阶段。但从目前国内外的研究现状看,从事数据挖掘研究的主要是计算机领域的学者和专家,统计学界的学者和专家对数据挖掘的研究相对较少。而随着数据存储技术的不断发展,可用于数据分析的数据量越来越大,对传统的统计分析技术提出了极大的挑战。 本文尝试从统计学的角度对数据挖掘进行应用性研究,使统计学方法适应数据量变化,继续发挥其处理数据、分析数据的重要作用,并期望能对统计学理论在数据挖掘方向的发展做出探索。 首先,针对目前数据挖掘大多侧重于算法设计及实现的现状,本文着重归纳总结了国内外统计学领域的专家、学者在数据挖掘方面的探索和取得的成果,奠定了本文的理论基础。然后分别从内涵、区别、联系等方面对统计学与数据挖掘的关系进行了详尽对比分析,以释清疑惑,明确本文的出发点。接下来着重从统计学的角度对数据挖掘中主要的技术和方法进行综述,其中既有对数据挖掘中使用的传统统计方法的概括,也有对其它领域的数据挖掘技术、方法的统计学角度的尝试性阐释,最后还给出了评价各种数据挖掘方法的统计学标准。 实证部分是本文的重点章节,在结构方面,依据统计学的理论框架分为了描述性数据挖掘与预测性数据挖掘两部分。在描述性数据挖掘中利用统计学的思维和方法对原始数据进行了大量探索性分析(一元分析、二元分析、多元分析),从而对待挖掘的数据有了一个整体的概括性了解,便于进一步明确挖掘的思路及所用的方法。随后将质量指标(电影评分值)与数量指标(观看数量)相结合并引进概率理论建立了用户类兴趣评价模型,实现了第一步的挖掘任务。在预测性数据挖掘阶段针对现有聚类方法及统计软件无法实现动态聚类的不足,根据聚类分析的基本思想及此次挖掘任务的特殊要求提出了改进后的动态聚类分析方法,并将其利用MATLAB编程实现。另外,在整个挖掘过程中为适应各种挖掘方法的需要,对数据进行了一系列的创造性的编程处理,随后综合运用了当今的主流统计软件SPSS15.0以及数据挖掘软件SPSS Clementine12.0、SQL2005 Busyness Miner、Markway3.0,进行了关联规则挖掘及决策树的建立并用于预测,对于上述软件无法解决的任务同时辅以MATLAB7.0编程来综合实现。 统计学如何为数据挖掘服务,这是在“数据挖掘”飞速发展的今天,统计工作者必须回答的一个问题。随着统计学与现代信息技术的融合,数据挖掘技术与统计学的集成已成为必然的趋势,也必定会为统计学和数据挖掘未来的发展开辟一片新的天地。
其他文献
教育时国家发展的必要支撑,很多学者之重视考试学科的教学而忽略了体育教学的重要性.体育教学是学习的必要基础,只有好的身体素质才能提高学生的学习成绩.本文就我国普通高校
全球化的竞争导致城市成为竞争主体,城市竞争愈加激烈,城市竞争力受到学者、国际机构以及政府等各方关注。城市企业的竞争力是构建城市竞争力的重要方面和关键影响因素。本文在
期刊
1煤炭行业两化融合的积极意义2012年是煤炭行业发展不平凡的一年。煤炭市场呈现了供求宽松,结构性过剩态势。煤炭企业经营出现了许多困难,同时,2012年是信息化发展的重要一年
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
基于汽车产业特性及其在国民经济中的重要地位,我国政府一直非常重视汽车产业的发展。为促进和加速汽车产业发展,中国政府制定了一系列相关的汽车产业政策。然而,汽车工业发展的
在这个讲究效率的时代,如何提高小学语文阅读教学的实效性是广大语文教师所关注的重点.语文新课标的实施及教材的推广使用,为传统的语文教学注入了新的活力和生机,使语文教学
作为一种最具投资价值的机会资源,优质高等教育入学机会被万千学子渴望和追求,而其机会的公平性也逐渐成为众多学者研究的对象。面对“倾斜的高校录取率”,本文对我国优质高
2015年修改的DMCA法案中关于技术措施例外规定规定做了最新调整,新增了一条关于3D打印机限制给料的例外规定.该项例外规定综合考虑了美国当前的3D打印技术环境以及各方代表的
汉语言文学是文学教育中的一个典型的学科和分支,高中生自身的人文素养素质的提升和汉语言文学的教学其实有着密切的关系.在新的经济形势和文化冲击之下,站在自我审视角度,对