论文部分内容阅读
校园场景下的学生行为研究能够有效了解学生的学习和生活行为特点,便于在教学过程中实现因材施教,是目前该领域的研究热点。数字化校园的大力推广,促使研究人员摒弃了传统以调查问卷为代表的数据采集方式,开始将目光转移到数字化校园数据,拓宽了相关研究的维度和普适性。与此同时,大数据、人工智能等技术的发展,彻底颠覆了相关研究领域常用的(以统计分析为代表的)技术手段,为该领域的发展提供了新的方向和思路。基于校园大数据的学生行为分析,有助于理解学生的行为和成长模式,从而在此基础上为其适配个性化的学习反馈等服务,具有重要的理论研究和实际应用价值。虽然该领域已逐步得到了国内外研究人员的关注,但总的来说,相关研究成果仍相对较少。本研究以学生的期末考试加权成绩预测为抓手,基于校园大数据,对学生行为进行了深入分析。研究主要由三部分组成:首先,本研究汇聚融合多维度的、大规模的(N=683)学生行为数据。为了大规模地、全面地对学生行为进行感知,本研究整合了数字校园环境中的多源数据,涵盖教务系统、校园一卡通、校园WI-FI等。在隐私保护的基础上,制订了统一的数据格式和规范,对多源数据进行汇聚和融合,解决了校园内同一学习主体不同来源、不同类型数据之间相互隔离的问题。其次,本研究综合利用时频分析和非线性分析等技术,从学习勤奋度和行为规律性两个角度,对学生行为数据进行了系统的量化分析。一方面,在传统统计分析等方法的基础上,从非线性分析的视角出发,创造性地提出了近似熵、change-complexity 两个指标,对学生行为的规律性(e.g.复杂度)进行进一步的量化。另一方面,为了更加全面的评估新提出指标的性能,本文从“加权”分析的视角出发,提出了 FSA(Feature Scores Average)指标,实验结果表明:新提出指标的量化效果较传统方法有较大提升。其次,本研究借助可视化分析手段(e.g.柱状图、色阶图等)及皮尔逊相关系数,进一步挖掘学生行为与学习成绩之间的影响机理,对相关行为特征进行系统的分析和评估,得到了不同成绩区间内学生的行为规律。最后,本研究基于机器学习算法,构建了学习成绩预测回归模型。本文进行消融实验探究模型性能,以及不同特征在模型预测中的必要性。一方面,本研究在对比了 SVR、RF、GBDT、XGBOOST四种不同算法的区别与模型效果之后,选择了效果最优的XGBOOST算法构建预测模型。实验结果表明,其预测结果与真实成绩之间的MSE为0.0092,R2为0.4742。另一方面,对不同特征指标在模型中的必要性与贡献性进行分析,实验结果表明,本文量化的行为特征均有效提升了模型的预测性能,即行为特征在预测模型构建中是非常必要的。