大规模数据挖掘聚类算法的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:kingwaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术集合了人工智能、机器学习、模式识别、统计学、数据库、可视化技术等众多领域学科,从大量数据中揭示出隐含的、先前未知的并有潜在价值的信息。数据挖掘作为引领当今世界信息技术领域的关键技术,已经引起了学术界和工业界的广泛关注与研究应用。聚类分析作为数据挖掘功能的一个重要分支,是一种非监督模式识别,至今已提出了大量的理论基础和实现算法,取得了可喜的研究成果。但是,聚类中还存在着许多广为人知的问题,随着信息量的飞涨以及数据对象的日趋复杂,聚类分析面临着更多新的内容和挑战。这就要求引入新的聚类改进方法,并提出新的理论和方法去适应新的应用。本文以硬k均值和模糊k均值为例,在深入研究传统经典聚类算法基础上,对这两种聚类分析方法进行了详细探讨与研究并提出几点改进方法。认真学习了开源数据挖掘项目Weka,在此基础上对模糊k均值算法进行了二次开发,并对算法的可靠性做了验证实验。为了适应于大数据量的协同并行数据挖掘运算,引入了MapReduce设计模式,并采用包含分布式文件系统的Hadoop架构对典型聚类算法进行了设计与实现,实验证明基于分布式计算的聚类分析算法相对于单机处理模式有很好的效率以及扩展性。
其他文献
基于计算机网络技术与现代医院管理需要,本文对医院网络系统的平台建设和模块设计进行探讨,总结了医院网络系统硬件平台的构建要点,重点阐述了医院网络系统的控制中心模块、医疗
定积分在经济学中有着广泛的应用,本文通过几个例子说明定积分在经济学的简单应用。
民用航空涡轮发动机作为飞机的最重要系统,是一个气动力作用系统和高速旋转机械系统,外来物的进入和撞击将对气动型面和转子叶片等造成物理损伤,从而影响发动机功能甚至造成
税收征管工作既是公共管理学的重要内容也是税务机关的重点工作。自1990年,我国提出纳税服务思想以来,税务部门便开始由“管理型政府”向“服务型政府”转变。税收征管工作的
在企业竞争日益激烈的今天,企业需要不断提高综合竞争力,以保证在竞争中能够脱颖而出.本文通过对企业绩效管理的探讨,综合分析了企业绩效管理对企业的各种作用,并对企业绩效
本文主要概述了用电信息采集系统,并分析了用电信息采集系统的结构组成,在此基础上对电力营销中用电信息采集系统的应用进行探讨。
唐朝在其近三百年的历史中,造物艺术风格以安史之乱为分界点,可分为前期和后期两个阶段,表现出各自不同的风格特点。前期国力强盛,受外来文化影响较深,艺术风格华丽丰满、开
为了将故障模式影响和危害性分析FMECA(Failure Mode Effects and Criticality Analysis,FMECA)与故障树分析FTA(Fault Tree Analysis,FTA)故障模式失效理论引入电站锅炉承压
摘 要 新课改的重点在于提高教学有效性。本文在探讨新课程理念下教学现状的基础上,对影响教学有效性的因素展开分析,提出了提高教学有效性的可操作建议。  关键词 新课程 有效教学 策略  中图分类号:G424 文献标识码:A    Strategy Research on Improving Teaching   Effecti