关联规则数据挖掘技术的研究与应用

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:csj123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息社会中数据爆炸性增长,“丰富的数据与贫乏的知识”的问题日渐突出。激增的数据背后隐藏着许多重要的信息,人们希望对其进行更高层次的分析以便更好的利用这些数据,虽然分析这些数据是枯燥的,甚至是困难的。作为一种需求,数据挖掘成为一种流行技术,数据挖掘工具可以进行数据分析,发现重要的数据模式,对商务决策、知识库、科学和医学研究做出了巨大贡献。从概念上讲,数据挖掘具有两方面的含义:在技术上,他是从大量的,模糊的,随机的实际数据中提取隐含在数据库中的,人们不可能看到的重要信息和知识;商业上,可以利用数据挖掘提取辅助商业决策支持的关键知识,即从一个数据库中自动发现相关商业模式。 关联规则挖掘是发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事物记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析。在事务数据库中挖掘关联规则是数据挖掘中一个非常重要的研究课题。在数据挖掘中相关算法的研究和改进,一直是数据挖掘中比较热点的问题。他有利于数据挖掘技术的发展和进步。 目前Apriori算法是所有布尔关联规则挖掘算法的核心。Apriori算法首先查找长度为l的频繁项目集,记成L1。L1又被用来查找长度为2的频繁项目集即L2。L2又被用来查找长度为3的频繁项目集L3……如此进行下去,直到找不出新的频繁项目集为止。对每个Lk的查找都需要对数据库进行一整趟扫描。但是Apriori算法的瓶颈是:(1)多次扫描事务数据库,需要很大的I/O负载,对每次k循环侯选集Ck中的每个元素都必须通过扫描数据库一次来验证其是否加入Lk;(2)可能产生庞大的侯选集,由Lk-1产生k-侯选集Ck是指数增长的。本文在经典的Apriori算法的基础上提出了一种新的改进的基于出现概率估算的Apriori_PA挖掘算法,总共只需要三次扫描数据库,大大提高了运行速度、减少运行时间和空间耗费。 数据挖掘技术在商业、金融界以及企业的生产、市场营销等方面都得到了广泛的应用,而在教育领域应用相对教少,高校中对学生选课,成绩等数据的处理一般还停留在简单的数据备份和查询阶段。近年来随着高校的不断扩招,学生人数大幅度增加,给高校学生管理,教学工作带来了严峻的考验。如何合理的调配教学资源,提高教学质量,成为了高校教学中的一个突出问题。21世纪是知识经济时代,也是社会各个领域特别是教育全面信息化的时代。而随着校园数字化的信息建设,学校积累了大量的教学数据,目前这些数据还没有得到有效的利用。怎样从这些数据中发现有趣的知识来辅助指导高校教学工作,变得十分重要。 本文重点研究了关联规则的挖掘算法,并进行了以下几方面的工作: 1.数据挖掘技术的分析与研究。对数据挖掘技术的产生进行了简要的回顾,在提出数据挖掘基本概念的基础上,对数据挖掘的对象、过程和常使用的技术进行了详细地分类、归纳和总结。对数据挖掘技术的国内外研究现状进行了广泛而全而地归纳、分析和研究,对数据挖掘技术的未来发展趋势和热点研究领域进行了客观地总结和探讨。 2.在提出关联规则基本概念的基础上,对关联规则的种类进行了全而地分类、归纳和总结,对关联规则的典型挖掘算法及其基本思想进行了详细地归纳、分析和研究,对各算法之间的差别进行了客观地比较,针对提高算法效率的各种优化技术也在这里被进行了详细地研究和讨论,同时客观地分析了它们的优缺点和利与弊。 3.对Apriori算法进行了深入分析,详细介绍了Apriori算法的过程及Apriori算法存在的性能瓶颈问题;在此基础上提出的基于出现概率估算的Apriori.PA挖掘算法,提高了运行速度、减少运行时间和空间耗费,而且应用改进的算法进行了模拟数据比较分析,并对改进的Aprion_PA挖掘算法进行了性能分析,并和Apriori算法进行了比较。 4.将关联规则挖掘算法与实际问题紧密结合起来,从现有的教学评价数据中,用本文提出的Apriori_PA算法进行关联规则的数据挖掘,寻找教学质量与教师的性别、年龄、职称、学历等的关联,找到课堂教学效果与教师整体素质的关系问题。 5.在探讨关联规则数据挖掘技术的应用过程中开发了基于Aprion_PA算法的关联规则分析器。该分析器使用简单,有良好的用户界面,具有数据预处理、设置最小支持度、生成频繁项集、设置最小置信度及产生关联规则等功能。
其他文献
工作流技术是一项快速发展的技术,越来越多的行业都开始采用工作流技术。它是随着企业、政府信息化的进行而迅猛发展起来的一个研究领域。工作流模型描述了由计算机执行的业务
视频会议中为了方便用户随时下载、回放以前的会议,视频会议的音视频、会议白板、共享文件等数据需要长久保存。多媒体文件的一个特点是文件容量大,同时,当前磁盘的写入、读
随着数据规模不断增大,面向海量数据的交互式查询需求越来越广泛。为满足此业务需求,工业界和学术界已经研发出多种交互式查询引擎,包括基于MapReduce构建的Apache Hive数据仓库
地理信息系统(Geographic Information System,GIS)是地球科学和信息科学等学科交叉的产物,涉及了地理学、制图学、遥感、CAD技术、数据库技术等技术。目前GIS已成功地应用到资
本课题属国家级项目,来源于科技部——国家网络科技环境建设下的网络协同应用服务环境建设。基于网络的科研资源丰富,研究人员分布在全国各地,为了能达到实时的研究和交流,更加能
如何有效地将DBMS应用系统作为一个整体,提高其运行效率,是数据库应用系统十分关键的问题,它直接影响到用户对系统的认可程度以及整个系统的生命力,同时也是应用系统成功的关键因
随着科学技术可视化和地质信息计算机模拟技术的发展,将可视化技术应用于地质勘探和数据处理中,为地质工作者在3D空间中观察、分析地质现象以及空间分布提供了新的方法和手段,以
本文首先简单介绍了移动通信的历史与优点,接着提出目前由于移动信号不移定的现状给手机用户带来的不便及国内外针对这个现状提出的不同的解决方案。接着介绍一种目前极为成熟
自从人类发明电话以来,随着社会需求的日益增长和科技水平的不断提高,电话交换技术随着电子工业的发展不断向前,其应用技术不断更新,从最早单部电话互通到人工交换,到其后的机电交
近几年来,我国房地产业已成为拉动国民经济增长的主要动力之一。对于实现房地产信息化来说,由于行业所包括的范围很广,又担负着行政管理和政策引导的职能,随着地理信息系统技术在