论文部分内容阅读
信息社会中数据爆炸性增长,“丰富的数据与贫乏的知识”的问题日渐突出。激增的数据背后隐藏着许多重要的信息,人们希望对其进行更高层次的分析以便更好的利用这些数据,虽然分析这些数据是枯燥的,甚至是困难的。作为一种需求,数据挖掘成为一种流行技术,数据挖掘工具可以进行数据分析,发现重要的数据模式,对商务决策、知识库、科学和医学研究做出了巨大贡献。从概念上讲,数据挖掘具有两方面的含义:在技术上,他是从大量的,模糊的,随机的实际数据中提取隐含在数据库中的,人们不可能看到的重要信息和知识;商业上,可以利用数据挖掘提取辅助商业决策支持的关键知识,即从一个数据库中自动发现相关商业模式。
关联规则挖掘是发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事物记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析。在事务数据库中挖掘关联规则是数据挖掘中一个非常重要的研究课题。在数据挖掘中相关算法的研究和改进,一直是数据挖掘中比较热点的问题。他有利于数据挖掘技术的发展和进步。
目前Apriori算法是所有布尔关联规则挖掘算法的核心。Apriori算法首先查找长度为l的频繁项目集,记成L1。L1又被用来查找长度为2的频繁项目集即L2。L2又被用来查找长度为3的频繁项目集L3……如此进行下去,直到找不出新的频繁项目集为止。对每个Lk的查找都需要对数据库进行一整趟扫描。但是Apriori算法的瓶颈是:(1)多次扫描事务数据库,需要很大的I/O负载,对每次k循环侯选集Ck中的每个元素都必须通过扫描数据库一次来验证其是否加入Lk;(2)可能产生庞大的侯选集,由Lk-1产生k-侯选集Ck是指数增长的。本文在经典的Apriori算法的基础上提出了一种新的改进的基于出现概率估算的Apriori_PA挖掘算法,总共只需要三次扫描数据库,大大提高了运行速度、减少运行时间和空间耗费。
数据挖掘技术在商业、金融界以及企业的生产、市场营销等方面都得到了广泛的应用,而在教育领域应用相对教少,高校中对学生选课,成绩等数据的处理一般还停留在简单的数据备份和查询阶段。近年来随着高校的不断扩招,学生人数大幅度增加,给高校学生管理,教学工作带来了严峻的考验。如何合理的调配教学资源,提高教学质量,成为了高校教学中的一个突出问题。21世纪是知识经济时代,也是社会各个领域特别是教育全面信息化的时代。而随着校园数字化的信息建设,学校积累了大量的教学数据,目前这些数据还没有得到有效的利用。怎样从这些数据中发现有趣的知识来辅助指导高校教学工作,变得十分重要。
本文重点研究了关联规则的挖掘算法,并进行了以下几方面的工作:
1.数据挖掘技术的分析与研究。对数据挖掘技术的产生进行了简要的回顾,在提出数据挖掘基本概念的基础上,对数据挖掘的对象、过程和常使用的技术进行了详细地分类、归纳和总结。对数据挖掘技术的国内外研究现状进行了广泛而全而地归纳、分析和研究,对数据挖掘技术的未来发展趋势和热点研究领域进行了客观地总结和探讨。
2.在提出关联规则基本概念的基础上,对关联规则的种类进行了全而地分类、归纳和总结,对关联规则的典型挖掘算法及其基本思想进行了详细地归纳、分析和研究,对各算法之间的差别进行了客观地比较,针对提高算法效率的各种优化技术也在这里被进行了详细地研究和讨论,同时客观地分析了它们的优缺点和利与弊。
3.对Apriori算法进行了深入分析,详细介绍了Apriori算法的过程及Apriori算法存在的性能瓶颈问题;在此基础上提出的基于出现概率估算的Apriori.PA挖掘算法,提高了运行速度、减少运行时间和空间耗费,而且应用改进的算法进行了模拟数据比较分析,并对改进的Aprion_PA挖掘算法进行了性能分析,并和Apriori算法进行了比较。
4.将关联规则挖掘算法与实际问题紧密结合起来,从现有的教学评价数据中,用本文提出的Apriori_PA算法进行关联规则的数据挖掘,寻找教学质量与教师的性别、年龄、职称、学历等的关联,找到课堂教学效果与教师整体素质的关系问题。
5.在探讨关联规则数据挖掘技术的应用过程中开发了基于Aprion_PA算法的关联规则分析器。该分析器使用简单,有良好的用户界面,具有数据预处理、设置最小支持度、生成频繁项集、设置最小置信度及产生关联规则等功能。