论文部分内容阅读
面向中国“2035”规划,高校和教育组织都战略性的布局智能教育,深化利用教育大数据做决策的思想,积极的尝试把教育和数据挖掘技术结合起来,用尖端的数据挖掘技术寻找有价值的信息服务老师和学生,为教学注入科学的能量。其中,学生成绩的挖掘分析在教育数据挖掘中一直是重要研究课题之一。由于学生的考试成绩是教学活动的关键环节,学生成绩的好坏反映了教与学的质量,影响着学生未来的发展路径。除此之外,在传统的教学模式下,教学过程存在许多可以提升的地方,比如说:1.传统教育模式下,教育者们常常利用“倒推法”分析学生的学习效果,即师生对教学效果的评估及改进是发生在学生课程考试之后的行为,这样的成绩分析方法在实际操作中没有达到及时纠错的效果,具有明显的滞后性。由于教育大数据技术的不断进步与从成熟,在如今的教学过程中,不仅可以利用教育大数据进行学生成绩分析,也可以利用数据挖掘技术对学生成绩进行预测。2.传统教学模式中,教师需要依靠经验和个人精力来对学生的掌握情况进行经验性的评判,然而教师不仅无法在大量学生数据中找到背后隐藏的关联,也存在精力有限的问题。以华中师范大学的《计算机基础》课程为例,单个学期的学生人数约为4000人左右,授课教师约为8人左右,这其中的师生比为1:500,因此教师无法顾及到每一个学生的学习情况,进而无法支持个性化教学。3.在目前的研究中,许多学者探讨了学生的心理和行为习惯与学生成绩之间的关系。对于学生成绩与学生所学内容的掌握情况及所学专业之间的关系探究不够深入,然而这两者的关系非常重要,利用其关系驱动教学结果优化,对于教学质量的提升来说具有重要意义。为解决传统教育的局限性,以及受到前人研究的启发。本文将数据挖掘技术应用到已有的学生成绩数据集上,构建上述问题的解决方案。实现不同类型的学生在课程学习过程中的知识掌握情况可视化、发现影响学生课程成绩的关键因素、给出阶段性学习的进步方向、辅助教师更加了解教学过程和学生反馈情况以及进一步完善精准教学。本文主要工作如下:1.构建学生画像本文在研究之初,查阅了大量的参考文献及对校内现有学情数据进行了调查。刻画出合理的学生画像,该画像由与学生考试成绩相关的特征属性构成,其中包括两部分,分别是与学习内容相关的属性和与学生基础情况相关的属性。随后对数据进行了预处理,由此确立了学生成绩分析的数据维度,构建了合理的学生画像。2.确定课程中影响学生成绩的关键因素针对学生在《计算机基础》课程中学习效果问题,利用改进的K-means聚类算法对预处理后的数据进行了聚类分析,根据聚类结果寻找影响学生成绩表现的关键因素,便于师生更全面细致的去了解自己针对课程的学习情况,找出课程中学习薄弱地方及掌握情况较好的地方,再次调整学习及教学计划,做到因材施教。由于不同数据样本对分类结果的影响程度具有差异性,引入改进的K-means聚类算法,将传统聚类中的距离公式进行修改,使得改进后的距离公式支持不同的数据样本具有不同的权重,进而提高分类的准确度。实验验证后,K-mens聚类算法可以有效给出分类结果,作为分析的依据,总结出有价值的结论。实验结果将全部数据根据聚类中心重新分到了 5个新的数据群中,分别根据每个群中学生各自的特征属性的分布情况去分析不同类型学生的学习情况及课程中主要影响学生成绩的知识点。为了清楚的看到聚类分析的结果,本文利用python中的画图工具对聚类结果进行了可视化,形成了聚类效果图和针对每一个分群的概率密度图。3.构建最佳学业预警模型为了帮助师生提前感知课程学习效果,使存在挂科风险的学生及时进行学习调整,进而提高课程通过率,帮助学生以科学的方法顺利通过课程。同时为了提升学生成绩预测模型的预测能力,本文基于文献中的主流方法做对比实验,挑选最优方案。首先根据数据集的特征,分别对决策树和回归算法两种主流方法进行改造,形成基于决策树的随机森林预测算法和基于回归算法的多元线性回归算法。其次利用两个算法中性能最佳的随机森林算法模型配合K-means聚类算法构建改进的随机森林预测模型,从而提高随机森林算法的分类能力,提高预测模型的准确率,最终改进的随机森林的预测准确率达到93.06%。采用聚类分析获取的影响课程中学生成绩关键因素的组合作为预测模型的输入,预测结果的准确性再次证明了课程中部分题目对学生总成绩的影响较大,部分课程对总成绩的影响较小,选择合适的特征组合也可以帮助预测结果的准确性得到有效提高。4.提出改进的K-means聚类算法在传统的K-means聚类算法中,数据样本的分类是基于样本X与每个初始聚类中心之间的距离,将样本划分到距离样本最近的聚类中心所在的簇中。但该判断依据缺乏考虑数据样本特征维数的权重,认为不同样本数据对分类结果的影响没有差异,从而降低了分类结果的准确性。针对上述问题,提出了一种改进的K-means聚类算法,其中改进的距离公式可以支持不同的数据样本具有不同的权值,避免出现一些对结果影响小的样本但与其他对结果影响大的样本的权重相同干扰分类结果的问题,因此使得对结果影响较大的样本具有较高的权值,从而提高算法分类结果的准确性。5.提出改进的随机森林算法针对传统随机森林算法中存在局限性,提出改进的随机森林算法。在传统的随机森林算法中,经过训练的决策树的分类性能好坏差异较大,并且决策树之间存在较高的相似度。改进的随机森林算法是基于传统的随机森林算法,考虑到随机森林中的分类功能和决策树之间的多样性,对传统随进森林模型中的决策树分类的精度进行改进,选择优质的决策树即分类质量较好的决策树,随后通过多样性评价准则去衡量决策树之间的相似度,主要利用聚类算法的原理,去将决策树分成多个群组,挑选出树与树之间的相似度较低的决策树,并将其重组成新的随机森林模型的子集,进行后续实验得到最佳结果。这样做可以提高随机森林算法的分类能力,同时缩减算法执行时间。该算法主要包括两个步骤,其一是提取高精度的决策树,主要从传统的随机森林算法中形成的决策树中提取。其二是利用聚类算法的原理对上一步中提取的高精度的决策树进行聚类,从中再提取存在差异性的即聚类后的群组相似度较低的决策树。最终达到算法结果准确性提高的目的。综上所述,本文主要基于学生多元化的学习身份数据,结合了数据预处理技术和机器学习技术构建了合理的学生特征画像,设计机器学习算法组合对学生的特征属性进行深入分析了解,随后构建预测模型实现学业预警。首先对由学生考试成绩和学生背景信息组成的多源数据进行预处理并基于属性与总成绩的关联性进行融合从而构建合理的实验数据集,设计改进的K-means聚类算法对实验数据进行深入挖掘分析,利用聚类结果的可视化展示对不同聚类分群中的学生特征进行详细分析,确定影响总成绩的关键属性。接着利用决策树和回归算法设计对比实验,实现成绩预测。为了提高预测结果的准确性,基于对比实验中表现较好的随机森林算法提出改进的随机森林预测模型,基于影响学生成绩的关键特征属性对学生成绩进行预测,在改进的随机森林算法中对传统随机森林产生的决策树进行了过滤,挑选出高质量的决策树组成高精度高多样性的子森林进行后续实验。在实验中利用准确率、召回率、F值、MSE相关数据指标评判实验结果的好坏,最后基于三个预测模型的实验结果的对比分析,选择准确率更好的模型,即基于改进的随机森林算法构建的预测模型,该模型可以辅助实现学业预警,帮助师生提前感知学业风险,做出相应合理科学的学习及教学计划的变更,提高学习及工作的效率。在研究中,有许多地方依然值得去改进,但由于本人的专业知识储备有限及时间方面的限制等原因,需要在日后的学习研究中去进一步完善。基于目前的研究进展,在我们掌握了不同学生对于知识点的学习状态,以及通过预测来提前了解可能存在的考试分数较低等学习问题后,建议建立个性化的学习资料推荐机制,有效的帮助学生补全短板,巩固学习基础,创造更佳的学习成绩。