论文部分内容阅读
随着社会信息化进程的加快,大量的数据逐渐被累积下来,为了从这些数据中发现有用的信息,数据挖掘应运而生,这十几年来人们对数据挖掘研究的热情有增无减,研究领域不断扩大,不同的挖掘分析方法不断地被提出。
本文对数据挖掘技术进行了研究分析,介绍了数据挖掘的主要方法,也给出了数据挖掘的基本过程。数据挖掘涉及了大量的准备工作与规划过程。事实上,整套的数据挖掘过程大部分时间是花费在数据前置作业阶段,其中包括数据的净化与格式转换以及表格连接。
关联规则是数据挖掘中的一个重要研究分支,本文对关联规则的概念、算法、国内外研究情况以及衡量标准等方面进行了综述。然后详细分析了经典算法Apriori算法的执行过程,指出该算法存在的缺点,针对这些缺陷,学者们已经提出了许多该算法的变形,如散列、事务压缩和划分等。在衡量标准上也加上了兴趣度和相对置信度等衡量标准。
我们经过研究分析发现,很多对于Apriori算法的更新改进都存在着解决了原来算法需要多次扫描数据库的问题,但是又在别的地方需要多花费时间,并且有的算法思想很简单,而要编程实现却很困难甚至根本无法实现。因此,本文给出了一种对原算法有所改进并且能够易于编程实现的改进方法。该算法在由K频繁项集生成K+1频繁项集的过程中,首先把K频繁项集中单个项目元素a的个数小于K的频繁项目集删除。这样就可以减少连接生成的候选集,同时也减少了剪枝的工作。我们把改进后的算法和原算法通过用MATLAB编程挖掘学生的课程成绩数据,发现改进后的算法比原算法在效率上确有提高。
虽然数据挖掘技术已经在商业、金融业等方面都得到了大量的应用,但是在学校管理中的应用却相对较少。在此,本人决定用历年来学生的课程成绩来挖掘,利用关联规则挖掘方法找出课程之间的相关性,这些挖掘结果,对我们计算机专业的课程编排工作起到了很大的指导作用,也为提高学生的学习效果提供了前提条件。