论文部分内容阅读
摘要:以北京联合大学商务学院信息管理与信息系统专业课程为研究对象,通过提取课程大纲内容关键词,应用Apriori算法对课程内容进行关联分析,得出课程关联规则,并建立专业课程知识网络。通过课程关联分析及知识网络分析研究课程之间的相关关系和紧密程度,区分核心课程,划分课程结构,并在此基础上对专业课程设置及改革提出意见与建议。对于专业课程研究及探索具有较强的理论和实践意义。
关键词:关联规则;Apriori算法;知识网络;专业课程;数据挖掘
中图分类号:G642.0 文献标识码:A 文章编号:1007-0079(2014)21-0055-03
专业课程设置是决定高等教育人才培养质量的重要环节。课程计划是课程设置的整体规划,是实现专业人才培养方案的关键,决定了教学实施的效果和人才培养的质量。课程设置是否合理、课程之间如何关联;如何合理地设置专业课程结构、调整专业课程内容;如何用科学的方法对现有专业课程体系进行关联分析,成为国内高校专业建设与课程改革中极为重要的研究课题。
本文以北京联合大学信息管理与信息系统专业课程为例,通过提取课程大纲关键词对专业课程进行内容分析,運用Apriori算法发现课程关联规则,并绘制课程知识网络图,在此基础上分析课程的关联程度,区分核心课程与非核心课程,对课程进行紧密度划分,以验证专业课程设置的合理性,为专业课程计划的调整提供针对性的意见和建议。
一、关联规则及Apriori算法综述
关联规则最早由Agrawal(1993)等人提出,侧重于确定数据中满足特定要求的不同属性域之间的相互联系。关联规则挖掘过程主要分为三大步骤:①一是求数据库中满足相应阀值的所有的频繁项目集并逐步寻找子集;二是利用挖掘好的频繁项目集生成所有达到相应阀值的关联规则;三是对发掘出来的规则进行可视化处理和评估。关联规则采用的主要算法有:Apriori算法及其衍生算法、增量挖掘算法以及并行挖掘算法等。本文分析的数据集较小且迭代次数不多,因此采用经典Apriori算法对课程进行关联分析。
Apriori算法是由Agrawal(1994)等人设计并提出的挖掘布尔关联规则频繁项集的一种有效算法。其基本思路是重复扫描数据库,其核心内容是基于频繁项集的一步步推导,首先找出用户设定的minsupport阀值的第一频繁项集L1,使用L1来寻找第二频繁项集L2,然后L2寻找L3,如此反复,直到找不到频繁项集为止。②实施步骤主要分为两步:一是发现频繁项集,如果一个项集是频繁的,则其子集也是频繁的;二是根据所获得的频繁项集寻找符合支持度的关联规则,最后依据设定的置信度指标确定规则。关联规则实质上是在数据库中找出置信度和支持度分别大于等于设定好的相应阀值的规则。
置信度也称为置信水平(Degree of confidence,简称Dconf),是估计值与总体参数在一定允许的误差范围以内,其相应概率的大小。置信度表示区间估计的把握程度大小,所以要求的把握程度越大,就会得到一个相对宽的置信区间,相应降低了估计的准确程度。在挖掘关联规则时需要自己设定一个最低准确度的数值,用来选取确定关联规则,为决策做依据;对于规则X、Y的置信度的计算公式为:
(1)
支持度即被支持的程度(Degree of support,简称Dsupp),即在一个数据集中支持被选数据出现的百分比。对于项集X的支持度公式为:
(2)
对于规则X、Y的支持度计算公式为:
(3)
以上X、Y为数据项集的子集,则合格规则X→Y(给定最小支持度α和最小置信度β)可以表示为:。
已有文献对关联规则及Apriori算法的改进及优化研究较多,应用于课程关联分析的文献并不多见,少数文献采用学生成绩或追踪毕业生就业状况来获取数据源,以此推断课程设置的合理性。本文以信息管理与信息系统专业课程为研究对象,采用客观数据即课程大纲提取内容关键词,避免其他主观因素的影响,再应用Apriori算法提取课程关联规则,使分析结果更加客观。
二、课程关联分析
1.课程编码及关键词提取
本文研究对象是专业课程,不考虑基础课和通识教育课,如大学英语、体育等。信息管理与信息系统专业课程主要分为四大类:学科大类必修课、学科大类限选课、专业必修课、专业限选课,本文一共选取了26门专业课程进行关联分析。
课程大纲是最能客观反映课程内容的规范性文件,从课程大纲中提取关键词可以较为准确地涵盖课程主要内容。本文采用Python语言对26门专业课程大纲进行分词分析,提取高频词作为本门课程的关键词,从分词结果中对每门课程出现频率最高的30个词语进行分析,剔除语义不合理的词汇以及动词、形容词等无法反映课程内容的词汇。考虑到关联规则算法对数据的要求,围绕课程核心保留关键词,经过多次试验每门课程最终选取10个以内的关键词。由于提取的关键词存在一定的差异性,各门课程提取的有效词汇数目不同,少数课程提取的有效关键词不足10个但不少于7个,符合本文的分析目的及要求,最后整理课程有效关键词如。
2.提取关联规则
以上规则反映了课程之间的关联关系,具体解释如下:数据库应用基础、管理信息系统分析与设计、商务智能;供应链与物流管理、电子商务网站建设、商务智能;商务决策、统计学、商务定量分析;客户关系管理、项目管理、管理学;市场营销、客户关系管理、供应链与物流管理;供应链与物流管理、项目管理、市场营销;企业资源计划、商务智能、供应链与物流管理;企业资源计划、商务智能、数据库应用基础;信息管理学、商务智能、管理信息系统分析与设计;商务定量分析、统计学、商务决策;电子商务概论、电子商务网站建设、供应链与物流管理。每条规则都反映了这几门课程之间存在较强的内容联系,或为先修课程与后续课程,或可以通过这些规则发现核心课程,也从一定程度上验证了课程设置的专业集中度及合理性。 3.课程知识网络分析
通过关联规则挖掘得到了部分课程之间的相关性,但无法直观反映出专业课程体系的整体关联程度,以下采用社会网络分析方法(Social Network Analysis)构建课程知识网络。本文采用NetDraw工具对课程设置构建可视化的知识网络,以课程及关键词作为节点,对专业课程进行知识网路分析。
图2反映了课程关联程度的总体知识网络结构,其中圆圈代表课程,方块代表关键词。越趋于中心的课程说明该课程的内容越核心,关键词越靠近外围说明通过其连接的课程越少,例如极限、动画、通货膨胀、求导等关键词都只属于某一门课程,并未与其他课程关联。
为了更清晰地分辨课程的分布情况和关联程度,构建课程关系图如图3所示。其中节点图形越大代表通过它连接的课程或者关键词越多,在整体课程设置计划或内容中越重要。
三、数据结果分析
通过上述分析可以看出,该专业课程设置整体情况较为合理,所有专业课程之间都可以通过至少一个关键词进行连接,从而形成完整的知识网络。通过关联规则提取,得出了11条课程关联规则,证明多门课程在课程内容设置上存在较强的相关性,反映了专业课程之间的内容联系。通过对关联规则中课程紧密程度进行分析,并对知识网络中每门课程所连接关键词的频次从高到低排序,确定该专业的核心课程如下:“管理信息系统分析与设计”“商务智能”“信息管理学”“电子商务概论”五门课程。课程内容核心关键词为:商务、模拟、经济学、软件、电子商务、信息管理、案例、分析方法等,体现了该专业的方向及特色。通过以上分析可划分专业课程结构如下:
第一,数学分析类,包括高等数学、统计学、商务定量分析、商务分析方法,主要关键词有微积分、定量分析、假设检验、概率论等。
第二,计算机基础类,包括计算机应用基础、互联网应用与开发、数据库应用基础,主要关键词为数据、操作系统、软件等。
第三,管理类,包括管理学、项目管理、客户关系管理、供应链与物流管理,主要关键词为管理学、战略、分析方法等。
第四,经济学类,包括宏观经济、微观经济学、会计学、信息经济学、市场营销,主要关键词为经济学、成本、业务流程、营销、策略等。
第五,电子商务类,包括电子商务概论、电子商务网站建设,主要关键词为物流、电子商务、模拟等。
第六,信息类,包括管理信息系统分析与设计、信息管理学、商务智能,主要关键词为信息管理、系统、设计、案例等。
第七,商务类,包括商务研究方法、商务决策,主要关键词为商务、案例、方法论、营销、策略等。
四、建议与总结
本文从关联分析的角度对北京联合大学商务学院信息管理与信息系统专业课程进行针对性分析。从课程内容上看,目前该课程体系设置基本合理,但仍然存在部分课程关联度不高、课程结构设置须进一步合理化等问题。针对以上分析提出课程调整建议如下:一是依据培养目标加强核心课程的内容建设,形成信息管理与信息系统专业特色的核心课程体系;二是依据课程性质及内容关联程度划分课程群,形成合理的课程知识链条;三是依据课程内容的逻辑关系确定先修课与后续课程,根据课程先后顺序设置合理的教学计划。
注释:
①高飞.关联规则挖掘算法研究[D].西安:西安电子科技大学,2001.
②王明,宋顺林.基于项集优化重组的频繁项集发现算法[J].计算机应用,2010,(9).
参考文献:
[1]朱文湘,朱建军.关联规则分析及其在教务管理系统中的应用[J].微计算机应用,2007,7(2).
[2]王运鋒,夏德宏,颜尧妹.社会网络分析与可视化工具NetDraw的应用案例分析[J].现代教育技术,2008,4(18).
[3]杨静.关联规则Apriori算法在学生信息管理中的应用[J].福建电脑,2010,3(1).
[4]邓砚谷,佘颖.基于关联规则的高校课程关联性分析[J].现代教育技术,2010,(5).
[5]王明,宋顺林.基于项集优化重组的频繁项集发现算法[J].计算机应用,2010,(9).
[6]李桥,阳春华.关联规则Apriori算法在教学评价中的应用[J].计算机与数字工程,2010,6(1).
[7]崔贯勋,李梁.关联规则挖掘中Apriori算法的研究与改进[J].计算机应用,2010,11(1).
[8]高飞.关联规则挖掘算法研究[D].西安:西安电子科技大学,2001.
[9]文蓉.数据挖掘中关联规则算法及应用研究[D].长沙:湖南大学,2007.
[10]焦亚冰.关联规则挖掘算法的研究与应用[D].济南:山东师范大学,2008.
[11]王玉荣.关联规则算法在大数据集上的应用研究[D].无锡:江南大学,2011.
[12]陈国青.商务智能原理与方法[M].北京:电子工业出版社,2009.
(责任编辑:孙晴)
关键词:关联规则;Apriori算法;知识网络;专业课程;数据挖掘
中图分类号:G642.0 文献标识码:A 文章编号:1007-0079(2014)21-0055-03
专业课程设置是决定高等教育人才培养质量的重要环节。课程计划是课程设置的整体规划,是实现专业人才培养方案的关键,决定了教学实施的效果和人才培养的质量。课程设置是否合理、课程之间如何关联;如何合理地设置专业课程结构、调整专业课程内容;如何用科学的方法对现有专业课程体系进行关联分析,成为国内高校专业建设与课程改革中极为重要的研究课题。
本文以北京联合大学信息管理与信息系统专业课程为例,通过提取课程大纲关键词对专业课程进行内容分析,運用Apriori算法发现课程关联规则,并绘制课程知识网络图,在此基础上分析课程的关联程度,区分核心课程与非核心课程,对课程进行紧密度划分,以验证专业课程设置的合理性,为专业课程计划的调整提供针对性的意见和建议。
一、关联规则及Apriori算法综述
关联规则最早由Agrawal(1993)等人提出,侧重于确定数据中满足特定要求的不同属性域之间的相互联系。关联规则挖掘过程主要分为三大步骤:①一是求数据库中满足相应阀值的所有的频繁项目集并逐步寻找子集;二是利用挖掘好的频繁项目集生成所有达到相应阀值的关联规则;三是对发掘出来的规则进行可视化处理和评估。关联规则采用的主要算法有:Apriori算法及其衍生算法、增量挖掘算法以及并行挖掘算法等。本文分析的数据集较小且迭代次数不多,因此采用经典Apriori算法对课程进行关联分析。
Apriori算法是由Agrawal(1994)等人设计并提出的挖掘布尔关联规则频繁项集的一种有效算法。其基本思路是重复扫描数据库,其核心内容是基于频繁项集的一步步推导,首先找出用户设定的minsupport阀值的第一频繁项集L1,使用L1来寻找第二频繁项集L2,然后L2寻找L3,如此反复,直到找不到频繁项集为止。②实施步骤主要分为两步:一是发现频繁项集,如果一个项集是频繁的,则其子集也是频繁的;二是根据所获得的频繁项集寻找符合支持度的关联规则,最后依据设定的置信度指标确定规则。关联规则实质上是在数据库中找出置信度和支持度分别大于等于设定好的相应阀值的规则。
置信度也称为置信水平(Degree of confidence,简称Dconf),是估计值与总体参数在一定允许的误差范围以内,其相应概率的大小。置信度表示区间估计的把握程度大小,所以要求的把握程度越大,就会得到一个相对宽的置信区间,相应降低了估计的准确程度。在挖掘关联规则时需要自己设定一个最低准确度的数值,用来选取确定关联规则,为决策做依据;对于规则X、Y的置信度的计算公式为:
(1)
支持度即被支持的程度(Degree of support,简称Dsupp),即在一个数据集中支持被选数据出现的百分比。对于项集X的支持度公式为:
(2)
对于规则X、Y的支持度计算公式为:
(3)
以上X、Y为数据项集的子集,则合格规则X→Y(给定最小支持度α和最小置信度β)可以表示为:。
已有文献对关联规则及Apriori算法的改进及优化研究较多,应用于课程关联分析的文献并不多见,少数文献采用学生成绩或追踪毕业生就业状况来获取数据源,以此推断课程设置的合理性。本文以信息管理与信息系统专业课程为研究对象,采用客观数据即课程大纲提取内容关键词,避免其他主观因素的影响,再应用Apriori算法提取课程关联规则,使分析结果更加客观。
二、课程关联分析
1.课程编码及关键词提取
本文研究对象是专业课程,不考虑基础课和通识教育课,如大学英语、体育等。信息管理与信息系统专业课程主要分为四大类:学科大类必修课、学科大类限选课、专业必修课、专业限选课,本文一共选取了26门专业课程进行关联分析。
课程大纲是最能客观反映课程内容的规范性文件,从课程大纲中提取关键词可以较为准确地涵盖课程主要内容。本文采用Python语言对26门专业课程大纲进行分词分析,提取高频词作为本门课程的关键词,从分词结果中对每门课程出现频率最高的30个词语进行分析,剔除语义不合理的词汇以及动词、形容词等无法反映课程内容的词汇。考虑到关联规则算法对数据的要求,围绕课程核心保留关键词,经过多次试验每门课程最终选取10个以内的关键词。由于提取的关键词存在一定的差异性,各门课程提取的有效词汇数目不同,少数课程提取的有效关键词不足10个但不少于7个,符合本文的分析目的及要求,最后整理课程有效关键词如。
2.提取关联规则
以上规则反映了课程之间的关联关系,具体解释如下:数据库应用基础、管理信息系统分析与设计、商务智能;供应链与物流管理、电子商务网站建设、商务智能;商务决策、统计学、商务定量分析;客户关系管理、项目管理、管理学;市场营销、客户关系管理、供应链与物流管理;供应链与物流管理、项目管理、市场营销;企业资源计划、商务智能、供应链与物流管理;企业资源计划、商务智能、数据库应用基础;信息管理学、商务智能、管理信息系统分析与设计;商务定量分析、统计学、商务决策;电子商务概论、电子商务网站建设、供应链与物流管理。每条规则都反映了这几门课程之间存在较强的内容联系,或为先修课程与后续课程,或可以通过这些规则发现核心课程,也从一定程度上验证了课程设置的专业集中度及合理性。 3.课程知识网络分析
通过关联规则挖掘得到了部分课程之间的相关性,但无法直观反映出专业课程体系的整体关联程度,以下采用社会网络分析方法(Social Network Analysis)构建课程知识网络。本文采用NetDraw工具对课程设置构建可视化的知识网络,以课程及关键词作为节点,对专业课程进行知识网路分析。
图2反映了课程关联程度的总体知识网络结构,其中圆圈代表课程,方块代表关键词。越趋于中心的课程说明该课程的内容越核心,关键词越靠近外围说明通过其连接的课程越少,例如极限、动画、通货膨胀、求导等关键词都只属于某一门课程,并未与其他课程关联。
为了更清晰地分辨课程的分布情况和关联程度,构建课程关系图如图3所示。其中节点图形越大代表通过它连接的课程或者关键词越多,在整体课程设置计划或内容中越重要。
三、数据结果分析
通过上述分析可以看出,该专业课程设置整体情况较为合理,所有专业课程之间都可以通过至少一个关键词进行连接,从而形成完整的知识网络。通过关联规则提取,得出了11条课程关联规则,证明多门课程在课程内容设置上存在较强的相关性,反映了专业课程之间的内容联系。通过对关联规则中课程紧密程度进行分析,并对知识网络中每门课程所连接关键词的频次从高到低排序,确定该专业的核心课程如下:“管理信息系统分析与设计”“商务智能”“信息管理学”“电子商务概论”五门课程。课程内容核心关键词为:商务、模拟、经济学、软件、电子商务、信息管理、案例、分析方法等,体现了该专业的方向及特色。通过以上分析可划分专业课程结构如下:
第一,数学分析类,包括高等数学、统计学、商务定量分析、商务分析方法,主要关键词有微积分、定量分析、假设检验、概率论等。
第二,计算机基础类,包括计算机应用基础、互联网应用与开发、数据库应用基础,主要关键词为数据、操作系统、软件等。
第三,管理类,包括管理学、项目管理、客户关系管理、供应链与物流管理,主要关键词为管理学、战略、分析方法等。
第四,经济学类,包括宏观经济、微观经济学、会计学、信息经济学、市场营销,主要关键词为经济学、成本、业务流程、营销、策略等。
第五,电子商务类,包括电子商务概论、电子商务网站建设,主要关键词为物流、电子商务、模拟等。
第六,信息类,包括管理信息系统分析与设计、信息管理学、商务智能,主要关键词为信息管理、系统、设计、案例等。
第七,商务类,包括商务研究方法、商务决策,主要关键词为商务、案例、方法论、营销、策略等。
四、建议与总结
本文从关联分析的角度对北京联合大学商务学院信息管理与信息系统专业课程进行针对性分析。从课程内容上看,目前该课程体系设置基本合理,但仍然存在部分课程关联度不高、课程结构设置须进一步合理化等问题。针对以上分析提出课程调整建议如下:一是依据培养目标加强核心课程的内容建设,形成信息管理与信息系统专业特色的核心课程体系;二是依据课程性质及内容关联程度划分课程群,形成合理的课程知识链条;三是依据课程内容的逻辑关系确定先修课与后续课程,根据课程先后顺序设置合理的教学计划。
注释:
①高飞.关联规则挖掘算法研究[D].西安:西安电子科技大学,2001.
②王明,宋顺林.基于项集优化重组的频繁项集发现算法[J].计算机应用,2010,(9).
参考文献:
[1]朱文湘,朱建军.关联规则分析及其在教务管理系统中的应用[J].微计算机应用,2007,7(2).
[2]王运鋒,夏德宏,颜尧妹.社会网络分析与可视化工具NetDraw的应用案例分析[J].现代教育技术,2008,4(18).
[3]杨静.关联规则Apriori算法在学生信息管理中的应用[J].福建电脑,2010,3(1).
[4]邓砚谷,佘颖.基于关联规则的高校课程关联性分析[J].现代教育技术,2010,(5).
[5]王明,宋顺林.基于项集优化重组的频繁项集发现算法[J].计算机应用,2010,(9).
[6]李桥,阳春华.关联规则Apriori算法在教学评价中的应用[J].计算机与数字工程,2010,6(1).
[7]崔贯勋,李梁.关联规则挖掘中Apriori算法的研究与改进[J].计算机应用,2010,11(1).
[8]高飞.关联规则挖掘算法研究[D].西安:西安电子科技大学,2001.
[9]文蓉.数据挖掘中关联规则算法及应用研究[D].长沙:湖南大学,2007.
[10]焦亚冰.关联规则挖掘算法的研究与应用[D].济南:山东师范大学,2008.
[11]王玉荣.关联规则算法在大数据集上的应用研究[D].无锡:江南大学,2011.
[12]陈国青.商务智能原理与方法[M].北京:电子工业出版社,2009.
(责任编辑:孙晴)