edx平台教育大数据的学习行为分析与预测

来源 :中国远程教育 | 被引量 : 0次 | 上传用户:qqqqq770627
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】 教育数据挖掘是一门新兴学科,通过分析学习行为记录归纳学习者的行为特点以提高教育质量,大规模在线开放课程学习者的学习行为记录为此提供充足素材。2012-2013学年哈佛大学和麻省理工学院在edX平台上开设了17门课程,本文选择其中16门课程60余万人次学习行为记录,归纳学习者学习行为特征,对部分典型行为特征进行数据挖掘,采用逻辑斯谛回归方法对成绩进行预测。实验表明,通过学习者的典型学习行为分析可以有效地判别其是否可以完成学习任务并获得证书。
  【关键词】 慕课;学习行为;数据挖掘;成绩预测;学习者特征
  【中图分类号】 G420 【文献标识码】 A 【文章编号】 1009—458x(2016)06—0054—06
  MOOCs(Massive Open Online Courses),即大规模在线开放课程(慕课),是由加拿大学者Bryan Alexander和Dave Cormier在2008年提出的。2012年《科学》杂志上出现了研究人员对慕课的介绍,并展望它将改变未来的教育[1]。2013年《自然》杂志详细介绍慕课的发展、现状和趋势[2]。以edX、Coursera和Udacity为代表,慕课理念和实践得到了哈佛大学、麻省理工学院等国际优秀大学的认同 [3]。北京大学李晓明教授认为两个因素:一是信息技术,主要是网络基础设施、Web2.0、音视频和云计算四个方面,使得慕课教学的良好体验成为可能;二是以学习者为中心的教育技术思想的成熟,使得慕课得以迅速流行[4]。慕课以其独特的共享优势,使教育机会和教育公平变为现实,并得到广大学习者的高度认可,近千万用户通过网络学习优秀大学的优质课程,世界范围内大规模在线教育时代已经到来。
  不同于传统的通过电视广播、互联网、辅导专线、函授等形式的远程教育,也不完全等同于近期兴起的教学视频网络共享公开课,更不同于基于网络的学习软件或在线应用。与传统的授课过程相比,慕课主要呈现出以下特点:① 慕课提供了丰富的课程资源,学习者可以根据自己的兴趣爱好,选择不同的授课者进行学习。② 慕课课程以知识点为一个授课环节,一般时间在10-20分钟之间。 ③ 学习者可以根据课程进度安排,随意选择学习地点,重复学习课程内容。④ 慕课学习者的问题一般能得到及时回复。⑤ 慕课的成绩评价则结合学习者在整个学习过程中的表现。此外,在慕课模式下,课堂教学、学习进程、学生者的体验、师生互动过程、学习者互动过程等被完整、系统地在线实现。慕课的主体是学习者,慕课最大的特点在于海量的学习者和各种各样的学习者群体。学习者的学习动机、受教育程度、学习态度、学习方法也呈现多样性。慕课平台上学习者的相关资料(如年龄、性别、受教育程度、来自国家和地区等)和学习行为(如观看授课视频次数、参与教学互动次数、浏览教学内容次数、解答问题数、学习者之间的交互学习等)都会以丰富多样的形式记录下来。如何充分利用数据,根据学习者的相关资料及学习行为记录,对其学习成绩进行评定是一个挑战。
  一、相关工作
  教育数据挖掘是一门新兴学科,关注从海量数据中挖掘出对教育者和学习者有用的信息,以提高教育管理效率和学习效率。慕课处于高速发展阶段,已经有学者利用教育数据挖掘方法对慕课学习行为数据进行分析。Ho等分析了edX平台上的慕课学习者,认为:学习者已经遍布全球,欧洲学习者学习的课程数量最多,参与率最高,而东亚的少;男性学习者比例较高;慕课对于已经获得学士学位的学习者更有吸引力;学习者的平均年龄为24岁;半数学习者从未完成课程的学习;社会科学类课程的参与率最高,而人文科学类课程的参与率最低;课程参与率最高的人群是已获得博士学位的学习者;大多数学习者仅注册了一门课程,注册了多门课程的学习者的参与率更高,而注册课程多于6门的学习者参与率则下降[5]。国内也有学者采用问卷调查等形式对MOOC课程学习过程进行研究[6]。
  对慕课学习者的学习行为分析与成绩预测的研究从方法上可以分为以下4类。
  1. 通过率预测
  Jiang 等人根据学习者一周的学习记录对其最终成绩进行预测[7]。Ramesh等人对学习者的线上学习行为进行了区分,作为预测最终成绩的潜在特征[8],也用于预测学习者是否会参加最终测试[9]。
  2. 退出率预测
  Balakrishnan等分析了伯克利大学开设的一门课程的退出情况,采用隐形马尔科夫模型,主要根据学习者观看授课视频的时间、浏览学习论坛帖子的数目、发帖数和学习所用的时间4个因素,判定学习者退出学习的机率[10]。Halawa、Greene和Mitchell通过学习者的学习特征判定是否对学习失去兴趣,对退出率给出较准确的预测[11]。Kloft采用决策支持向量机分析学习者的点击序列,对退出率进行判定[12]。Taylor等基于学习者的群体特征进行判定[13]。
  3. 干预式预测
  edX、Coursera、Udacity等平台上的慕课通过率都很低。一种解决办法是及时识别学习困难者,并及时干预,给予学习者一定的提醒和帮助。Williams 从认知心理学的角度进行了深入的研究,通过在MOOC课程视频中添加提问的方式提高学习者的积极性,对减少退出率的有效性进行了验证,并分析了不同交流措施对通过率的影响[14][15][16]。He 等人根据多维因素对逻辑斯谛回归方法进行改进,通过预测,对处于边缘的学习者进行干预[17]。
  4. 关系挖掘
  主要是分析哪些因素影响课程通过率或失败率。DeBoer等研究了年龄、性别、地区等人口统计特征对课程通过率的影响[18]。Yang等研究了学习行为和在学习论坛中的地位对通过率的影响,以及学习者在论坛中的评论和学习者之间的相互作用对通过率的影响[19][20]。这些研究对慕课课程设计有很大帮助。   二、学习者特征
  传统教育活动中,学习者群体的学习动机基本相同,学习者的心智发展和知识水平大体相当。慕课环境下,学习者的学习动机和知识背景差异呈现多样化。2012年秋季到2013年夏季,哈佛大学和麻省理工学院在edX平台上开设了17门课程。本文选定其中16门课程60余万条学习行为记录进行学习者特征的统计分析,16门课程的信息(如课程代码、课程名称、注册时间、开始时间、终止时间、课程天数、注册学生数、通过考试获得证书学生数、通过率等)如表1所示。
  1. 学习者类别
  根据平台上的学习记录,将学习者分为3类:
  注册者(only registered):注册账号后,未完成任何一项学习任务。
  浏览者(only viewed):注册账号后,学习内容少于课程内容的一半。
  探索者(only explored):注册账号后,学习内容超过课程内容的一半。
  每类学习者所占比例、性别、教育程度、年龄以及课程开始前注册人数、课程进行中注册人数及课程结束后注册人数等信息如表2所示。
  2. 教育背景
  按照初级教育水平、中级教育水平、高级教育水平、副学士、学士、硕士、博士7个等级进行统计,学习者的平均受教育水平是学士,HealthStat课程学习者平均受教育水平是硕士,拥有博士学位的学习者占10%。通过考试并取得证书的学习者中,教育水平在学士学位以上的占54%。
  3. 年龄
  每门课程学习者的平均年龄均小于30岁,通过考核获得证书的学习者平均年龄略高。可能是课程主题的关系,哈佛大学慕课学习者的年龄和受教育程度均高于麻省理工学院。每门课程的学习者年龄分布和完成学习获得证书的学习者年龄分布如图1所示。
  4. 性别
  图2表示女性学习者各门课程中所占的比例以及完成学习获得证书的比例。科学类、工程类、技术类、数学类课程女性学习者的比例比人文和社会科学类的课程低,完成学习获得证书的比例更低。
  三、典型学习行为选取
  除了受学习者年龄、性别、教育背景等因素影响外,学习动机和投入程度也很大程度上影响着学习效果。为了准确地描述学习者行为,本文选取了学习时间、学习事件次数、抽样统计学习次数、观看视频次数、学习章节数以及在学习论坛上发帖数等作为学习行为分析的客观依据,以此为基础进行成绩预测。
  时间:在开课前几周就有注册课程的记录,一半以上的学习者在课程开始前完成注册。约有8%的学习者在课程结束后注册课程。文中的学习时间用学习者最后学习记录日期减去注册时间。
  学习事件次数:通过分析系统日志,得到学习者与课程交互活动的次数。
  抽样统计学习次数:系统在特定的时间对学习行为进行的抽样统计。
  观看视频次数:学习期间观看视频的次数。
  学习章节数:从课程开始到课程结束,学习者学习的内容章节数。
  发帖数:学习者关于课程内容在学习论坛上发起的话题,包括回复别人提出的问题等。
  四、逻辑斯谛回归算法框架
  逻辑斯谛回归算法主要包括对学习记录数据的归一化处理、构造预测函数、构造损失函数、采用优化算法求解等过程(如图3所示)。
  1. 构造预测函数
  设Y是 0-1型变量,表示学习者是否通过学习并取得证书。表示影响学习效果Y的相关变量,与的关系为:
  函数的值表示结果取1的概率,因此对于输入分类结果,值为 1和值为0的概率分别为:
  五、实验结果与分析
  1. 实验数据集
  本文用到的数据集包括641,138个注册学习者在学习16门课程期间的相关学习记录,删除了特征记录不完整的数据,有效记录338,888条,按课程以80%和20%比例拆分,得到训练集和测试集。
  2. 评价指标
  为了衡量算法的效果,文中采用了准确率、精确率、召回率和调和值作为评价指标。
  TP:记录值为1,预测值为1的记录数;
  FN:记录值为1,预测值为0的记录数;
  FP:记录值为0,预测值为1的记录数;
  TN:记录值为0,预测值为0的记录数;
  准确率=(TP TN)/(TP FN FP TN);
  精确率=TP/(TP FP);
  召回率=TP/(TP FN);
  调和值=2TP/(2TP FP FN);
  迭代次数达到40次时,准确率、精确率、召回率、调和值均达到最佳值(如图4所示)。
  3. 学习效果预测
  对16门课程进行了实验分析,结果如表3所示。
  实验结果表明,应用逻辑斯谛回归方法,根据学习者的学习记录,能比较准确地预测后期学习效果,充分说明了本文提出的算法的合理性和有效性。
  4. 其他数据分析
  实验结果表明,选取的学习者行为特征可以在课程进行中有效地区分学习者,在全部课程上均有较好的实验效果。从数据中发现的现象和主要结论如下:
  (1)可以根据学习记录较准确地预测学习效果
  虽然学习者的学习动机、学习目的以及想要达成的目标等主观情感无法计算,但可根据学习者的年龄、教育背景、学习行为的过程化记录数据(观看视频数、学习章节数、抽样学习行为记录数、学习论坛发帖数、学习课程用时数等)等客观数据预测学习者的最终学习效果。实验证明,采用逻辑斯谛回归方法进行预测效果较好。
  (2)学习者教育背景对学习效果影响不大
  实验中完成学习环节、获得证书的学习者中初等及以下的受教育者占3%,获得博士学位的占3%,中等教育占28%,本科占35%,硕士占31%。初中等教育的学习者与本科和硕士学习效果区分不显著。   (3)性别因素对学习效果影响不大
  实验表明,性别与学习效果间没有显著关系。
  六、结 论
  本文对edX平台上开设的16门课程60余万条学习行为记录进行了分析,选取了学习时间、学习事件次数、抽样统计学习次数、观看视频次数、学习章节数、发帖数等作为学习行为关键记录,对学习者是否可以完成学习任务并获得证书进行了预测。实验证明,可以通过分析学习行为关键记录预测学习效果。
  学习效果是学习行为的最终体现,受动机、目的、情感等多方面的影响。edX平台上的学习行为主要是学习者的一些客观行为表现。虽然采用逻辑斯谛回归方法可以准确判定学习效果,但是学习过程中的主观因素未得到体现。如何体现主观因素,并应用于学习效果预测,是一个有趣且复杂的课题,对充分理解学习者的学习行为、提高学习效率、科学地设置课程内容、干预学习进程等都有很大的帮助。
  [参考文献]
  [1] Stein L A. Casting a wider net [J].Science, 2012, 338(6113):1422-1423.
  [2] Waldrop M M. Online learning: Campus 2.0 [J].Nature, 2013, 495(7440):160-163.
  [3] 蒋卓轩,张岩,李晓明. 基于MOOC数据的学习行为分析与预测[J]. 计算机研究与发展,2015,52(3):614-628
  [4] 李晓明. 慕课:是橱窗?还是店堂?[J]. 中国计算机学会通讯,2013,9(12):24-28.
  [5] Ho, A. D., Reich, J., Nesterko, S., Seaton D. T., Mullaney, T., Waldo, J.,
其他文献
2012年6月21日,教育部批复同意在中央广播电视大学基础上建立国家开放大学,批准北京广播电视大学、上海广播电视大学更名为北京开放大学、上海开放大学。7月31日,教育部在人民大会堂举行了国家开放大学和北京开放大学、上海开放大学成立大会揭牌仪式,中共中央政治局委员、国务委员刘延东出席大会并做重要讲话。三所开放大学的挂牌成立,标志着广播电视大学的战略转型迈出了第一步。为深入贯彻落实教育规划纲要和刘延东
《中学生哲学社社长:“为那些上不了大学的人”》:“Philosophia哲学社”是一个中学生主导、以线上讨论为主的青年哲学社团,前身为北师大实验中学哲学社,2018年初转为跨校组织。哲学社关注西方哲学和人文社科理论,在微信公众号发布文章,包含对哲学家和哲学概念的普及、社论及论文。我们联系了刚满19岁的PZH,听他谈论哲学社所做的事情,哲学对中学生的影响,哲学与社会批判的衔接,自身所经历的教育环境及
难词探意  1. run /rn/ v. 管理;经营  2. obvious /bvis/ adj. 明显的;显然的  There is a farm not far from the coastline. It belongs to a man called Tom. Tom couldnt do everything by himself on the farm. Thus, he neede
【摘 要】远程教育机构的教师队伍和传统教育机构的教师队伍存在显著差异。美国凤凰城大学创办初期以兼职教师队伍为主、没有固定教职的做法就受到了传统规则的冲击,今天凤凰城大学仍以兼职教师为主,按照课程建设与课程教学的五个阶段相应有三个教学团队,即学位项目与课程体系研发团队、课程教学大纲与课程材料开发团队、课程教学团队;配套有严格、精细化的教师招聘与培训体系,以课堂为中心的教师绩效评估,有效促进了教学过
【摘 要】  现代信息技术的发展与应用,为远程教育农科类课程虚拟教学团队建设提供了新的探索空间和有力支撑。湖南电大基于“三农”特色课程建设实践,在分析电大系统农科师资现状、远程教学难点的基础上,阐明了建设虚拟教学团队的必要性,提出了构建虚拟教学团队的理论思考。本文以“畜禽养殖技术操作实训”课程为个案,从团队目标、规模与成员、沟通规范、团队文化、一站式教学与实训平台建设以及团队协作服务六个方面探讨了
【摘 要】 作为学术研究成果的重要载体,学术期刊所刊载的学术文章反映了该学科的实践与研究的发展脉络及当前的研究热点。本研究选择了《中国远程教育(Distance Education in China)》和《美国远程教育杂志(the American journal of distance education)》两份期刊从2000年到2010年的全部出版物中所包含的学术论文,共计2,141篇,并按宏
华盛顿大学信息学院技术和社会变革小组的研究人员发现,发展中国家的学习者与美国的学习者在使用MOOC时存在显著差异。美国和类似国家之前的研究结论并不适用于发展中国家。该研究的基础数据来源于18岁到35岁之间的1,400名MOOC用户和2,250名非MOOC用户,分别来自哥伦比亚、菲律宾和南非。该研究由美国国际开发署和世界上最大的在线课程评价机构CourseTalk发起,由非营利组织IREX管理,希望
x2013年1月,巴布森调查小组与美国大学理事会共同发布了第十次美国在线教育调查报告——《课程变迁:追踪美国在线教育的10年发展》。今年的调查报告主要关注大规模开放在线课程、在线学习的学生数量、在线学习与面对面学习的学习结果、扩大在线学习的障碍等问题,该报告是基于2,800名学术带头人的反馈意见而完成。在线学习调查结果显示:选修至少一门在线课程的学生人数已超越670万人。但高等教育中采用大规模开放
教育部不久前印发《关于全面提高高等教育质量的若干意见》,强调高等教育要走以质量提升为核心的内涵式发展道路,其中提出要保持普通高校本科招生规模相对稳定,高等教育规模增量主要用于发展高等职业教育、继续教育等。这显然不能理解为可以不重视继续教育质量——事实上,《意见》也提出要“推进高校继续教育综合改革,引导高校面向行业和区域举办高质量学历和非学历继续教育”,措施包括“实施本专科继续教育质量提升计划”。远
本刊卷首数次谈及,我国远程教育的转型将是始终伴随阵痛的过程,并称其“烈度”甚至可能在相当程度上超出实际承受能力。又曾特别谈到循序渐进,说远程教育要想持续稳定发展,看来只能选择“渐进式改革”的路径。所谓“循序”,一是要遵循规律,二是要把握节奏。而无论是基于历史反思还是现实考量,当前可能还有必要再提风险控制问题——事实上,风险控制本来就是循序渐进的题中应有之义。有业内人士认为,相关方面对可能出现的各种