论文部分内容阅读
学生的课程成绩不仅是学生对课程学习质量的直观反映,也是衡量教学质量的重要依据。数据挖掘是从大量的、不完全的、有噪声的数据中提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。对学生成绩及相关数据进行数据挖掘,发现学生各课程学习效果之间的关联关系并用于教学工作的指导有着重要的意义。本文在深入研究数据挖掘知识的基础上完成了对本校应用数学专业的学生课程成绩关联关系的研究。 论文详细阐述了关联规则分析模型和聚类分析模型的设计与实现及其在课程成绩关联性研究中的应用,主要内容包括: 遵循数据仓库设计的原则,在SQL Server2005中建立和课题需求的星型数据仓库student_ scoreDW。使用结构化查询语言T-SQL进行数据预处理,使其转换为数据挖掘算法所需要的格式。实现聚类分析技术中的k-means算法在数据泛化预处理中的应用。 针对fp-growth算法的不足提出了其改进算法:基于共后缀项间频繁闭项集的改进算法Cfp-growth算法使得生成关联规则的冗余量降低,基于散列技术的改进算法HCfp-growth算法使得算法的时间效率大大提高,基于事务矩阵的改进算法MCfp-growth算法使得时间效率提高的同时避免了大量的指针操作,同时避免了内存泄露。对每一个改进算法的工作原理和过程均结合实例进行了详细说明。并基于AdventureWorks数据库对其进行了算法效率的测试,且对测试结果进行了理论分析。 将改进后的算法应用到学生课程成绩关联性的研究中,对学生成绩这一关键性能指标进行数据挖掘,得出了同时满足最小支持度阀值min_sup和最小置信度阀值min conf的学生成绩关联模式,挖掘出了学生课程成绩之间的关联性和关联程度,分析了结果的指导意义:注重课程之间的有机联系、建立成绩预警机制、提供就业参考和专业内方向选择的依据。 论文还对目前数据挖掘技术研究存在的不足之处和未来的研究方向提出自己的观点。本论文所用的开发平台是微软公司的vs2010和SQL Server2005,采用结构化查询语言T-SQL实现数据仓库的建立和数据预处理,采用C++语言编程实现课程成绩关联关系的挖掘。