论文部分内容阅读
【摘 要】本文介绍了数据挖掘技术在远程教育中的应用,为了更好的实现远程教育技术,对源数据的收集、数据的预处理、数据挖掘及个性化智能学习系统做了较详尽的介绍。肯定了数据挖掘技术给我们提供了“变废为宝”、“化繁为简”、“从模糊到清晰”的巨大帮助。
【关键词】Web数据挖掘技术;远程教育
校企合作,发挥学校和企业的各自优势,共同培养社会与市场需要的人才,是大中专院校谋求自身发展、实现与市场接轨、大力提高育人质量、有针对性地为企业培养一线实用型技术人才的重要举措。校企通是让学校和企业实现即时通讯、技术实现优势互补、资源共享,以切实加强校企联系的紧密性。
一、校企通中的Web 挖掘技术
我们从更为一般的角度出发,对Web挖掘作如下定义:Web 挖掘是指从大量Web文档结构和使用的集合C中发现隐含的模式p。如果将C看作输入,p看作输出,那么Web挖掘的过程就是从输入到输出的一个映射 :C→p。但是,服务器端只能记录学习者浏览过的页面的链接,不能了解页面上承载的知识点信息,所以,我们在设计网络课程的页面时应尽可能地将含有特定知识点的网页链接与课程中的知识点形成一一对应关系,也就满足了服务端记录学生在学习时掌握知识点情况的数据的要求,从而达到以知识点为导向来进行数据挖掘的策略。
二、Web 挖掘在校企通中的应用
1.源数据的收集
①服务器端数据的收集(Server Level Collection)。可以从Web服务器、代理服务器的Web log文件中收集数据,此部分信息是最简单和最方便的数据来源,它记录了每一次网页请求信息。Web日志文件是由一条条记录组成, 一条记录记录学习者对Web页面的一次访问。Web服务器的日志记录格式如表1 所示:
另外,Web服务器还可以存储其它的Web使用信息,比如Cookie,以及学习者提交的查询数据。Cookie是由服务器产生的,用于记录学习者的状态或者访问路径。由于涉及到学习者的隐私问题,使用Cookie需要客户的配合。
②包监测技术(packet sniffing technology)。辅之于监视所有到达服务器的数据,提取其中的HTTP请求信息。此部分数据主要来自浏览者的点击流(Click stream),用于考察学习者的行为表现。
网络底层信息监听过滤是指监听整个网络的所有信息流量,并根据信息源主机、目标主机、服务协议端口等信息过滤掉不关心的垃圾数据,然后进行进一步的处理,如关键字的搜索等,最终将学习者感兴趣的数据发送到给定的数据接受程序,存储到数据库中进行分析统计。其工作流程如图1所示:
图1:网络底层信息监听过滤工作流程
③后台数据库里的原有数据。后台数据库存储了学习者和教学资源两个方面信息。
2.数据的预处理。按照现代远程教育技术标准,将后台数据库与网络日志预处理后得到的数据相匹配建立数据挖掘库,即学习者特征数据仓库。将收集到的数据进行分门别类。现代远程教育技术标准(CEL TS)中定义了学习者的子标准,即学习者模型规范(CEL TS-11),其中包含了学习者的八种必要信息:个人信息、学业信息、管理信息、关系信息、安全信息、偏好信息、绩效信息、作品集信息。依照此模型便可以将分布在不同功能模块中的信息抽取出来,然后清洗脏数据。
3.个性化智能学习系统。个性化智能学习系统由离线和在线两大阶段组成。在离线阶段通过数据收集、数据挖掘最终产生学习者个性化学习数据仓库,以便于学习者登录到远程教育网站进行学习时,网站服务器自动对用户进行模式识别。在线阶段,首先将当前登录用户进行模式识别以找到其合适的学习模式,然后将其个性化数据由学习者个性化数据仓库传送到推荐引擎,由推荐引擎进行学习策略的抽取,再由推荐引擎产生推荐集,通过网站服务器传递到用户浏览器推荐给用户。个性化智能学习系统中的核心模块就是推荐引擎,它的功能就是自动将用户登录后所进行的会话过程(即用户登录后产生的所有的URL请求) 进行记录与分析并进行策略的抽取和学习资源的推荐。推荐引擎接受到从数据仓库中传递来的该用户的个性化数据后,要进行如下处理过程:首先将个性化数据中含有用户此次登录的会话信息进行滤除,即不向用户推荐本次登录后已经浏览过的知识;然后再将经过过滤的个性化数据生成推荐集,附加到用户当前的会话请求中去。
三、结束语
在校企通中面对快速增长的数据收集而没有强有力的工具,数据库中的数据就会形成数据坟墓。数据挖掘技术通过对数据的清理和集成、选择和变换、建立知识库和模式评估等过程将“数据坟墓”转变为金子。
参考文献:
[1](加)Jiawei Han,Micheline Kamber.DATA MINING——concepts and techniques(第一版).北京:机械工业出版社,2005.
[2]邵峰晶,于忠清.数据挖掘原理与算法(第1版).中国水利水电出版社,2003-08.
【关键词】Web数据挖掘技术;远程教育
校企合作,发挥学校和企业的各自优势,共同培养社会与市场需要的人才,是大中专院校谋求自身发展、实现与市场接轨、大力提高育人质量、有针对性地为企业培养一线实用型技术人才的重要举措。校企通是让学校和企业实现即时通讯、技术实现优势互补、资源共享,以切实加强校企联系的紧密性。
一、校企通中的Web 挖掘技术
我们从更为一般的角度出发,对Web挖掘作如下定义:Web 挖掘是指从大量Web文档结构和使用的集合C中发现隐含的模式p。如果将C看作输入,p看作输出,那么Web挖掘的过程就是从输入到输出的一个映射 :C→p。但是,服务器端只能记录学习者浏览过的页面的链接,不能了解页面上承载的知识点信息,所以,我们在设计网络课程的页面时应尽可能地将含有特定知识点的网页链接与课程中的知识点形成一一对应关系,也就满足了服务端记录学生在学习时掌握知识点情况的数据的要求,从而达到以知识点为导向来进行数据挖掘的策略。
二、Web 挖掘在校企通中的应用
1.源数据的收集
①服务器端数据的收集(Server Level Collection)。可以从Web服务器、代理服务器的Web log文件中收集数据,此部分信息是最简单和最方便的数据来源,它记录了每一次网页请求信息。Web日志文件是由一条条记录组成, 一条记录记录学习者对Web页面的一次访问。Web服务器的日志记录格式如表1 所示:
另外,Web服务器还可以存储其它的Web使用信息,比如Cookie,以及学习者提交的查询数据。Cookie是由服务器产生的,用于记录学习者的状态或者访问路径。由于涉及到学习者的隐私问题,使用Cookie需要客户的配合。
②包监测技术(packet sniffing technology)。辅之于监视所有到达服务器的数据,提取其中的HTTP请求信息。此部分数据主要来自浏览者的点击流(Click stream),用于考察学习者的行为表现。
网络底层信息监听过滤是指监听整个网络的所有信息流量,并根据信息源主机、目标主机、服务协议端口等信息过滤掉不关心的垃圾数据,然后进行进一步的处理,如关键字的搜索等,最终将学习者感兴趣的数据发送到给定的数据接受程序,存储到数据库中进行分析统计。其工作流程如图1所示:
图1:网络底层信息监听过滤工作流程
③后台数据库里的原有数据。后台数据库存储了学习者和教学资源两个方面信息。
2.数据的预处理。按照现代远程教育技术标准,将后台数据库与网络日志预处理后得到的数据相匹配建立数据挖掘库,即学习者特征数据仓库。将收集到的数据进行分门别类。现代远程教育技术标准(CEL TS)中定义了学习者的子标准,即学习者模型规范(CEL TS-11),其中包含了学习者的八种必要信息:个人信息、学业信息、管理信息、关系信息、安全信息、偏好信息、绩效信息、作品集信息。依照此模型便可以将分布在不同功能模块中的信息抽取出来,然后清洗脏数据。
3.个性化智能学习系统。个性化智能学习系统由离线和在线两大阶段组成。在离线阶段通过数据收集、数据挖掘最终产生学习者个性化学习数据仓库,以便于学习者登录到远程教育网站进行学习时,网站服务器自动对用户进行模式识别。在线阶段,首先将当前登录用户进行模式识别以找到其合适的学习模式,然后将其个性化数据由学习者个性化数据仓库传送到推荐引擎,由推荐引擎进行学习策略的抽取,再由推荐引擎产生推荐集,通过网站服务器传递到用户浏览器推荐给用户。个性化智能学习系统中的核心模块就是推荐引擎,它的功能就是自动将用户登录后所进行的会话过程(即用户登录后产生的所有的URL请求) 进行记录与分析并进行策略的抽取和学习资源的推荐。推荐引擎接受到从数据仓库中传递来的该用户的个性化数据后,要进行如下处理过程:首先将个性化数据中含有用户此次登录的会话信息进行滤除,即不向用户推荐本次登录后已经浏览过的知识;然后再将经过过滤的个性化数据生成推荐集,附加到用户当前的会话请求中去。
三、结束语
在校企通中面对快速增长的数据收集而没有强有力的工具,数据库中的数据就会形成数据坟墓。数据挖掘技术通过对数据的清理和集成、选择和变换、建立知识库和模式评估等过程将“数据坟墓”转变为金子。
参考文献:
[1](加)Jiawei Han,Micheline Kamber.DATA MINING——concepts and techniques(第一版).北京:机械工业出版社,2005.
[2]邵峰晶,于忠清.数据挖掘原理与算法(第1版).中国水利水电出版社,2003-08.