论文部分内容阅读
                            
                            
                                
                            
                            
                              摘要:在介绍关联规则概念和常用算法的基础上,文章讨论了数据挖掘技术在影院会员信息管理系统中应用的必要性,找到两者的结合点,探索如何在会员管理系统中应用数据挖掘技术。重点分析了关联规则Apriori算法应用到会员管理模块中,对已有数据进行分析挖掘,提出数据所隐藏的有价值的信息,为指导和辅助影院管理决策提供参考。
关键词:信息管理系统;数据挖掘;关联规则;支持度;置信度
  
一、关联规则及算法概述
  
若两个或多个变量的取值之间存在某种规律性,就称为关联。关联规则挖掘技术用于发现数据库中属性之间的有趣联系,旨在寻找在同一事件中出现的不同项的相关性。关联规则技术适用于购物篮分析,可以找出潜在的令人感兴趣的产品组合,从大量的事务记录中发现潜在的关联关系,帮助管理者做出正确的商务决策。
最典型的例子就是“啤酒和尿布”的故事,在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也发现一些规律,在购买婴儿尿布的年轻父亲们中,有30%-40%的人同时要买一些啤酒。超市随后对货架摆放做了调整,把尿布和啤酒放在了一起,增加了销售额。
Apriori算法是一种最有影响的挖掘布尔型关联规则频繁项集的算法。Apriori使用一种称作逐层搜索的迭代方法,经典的关联规则挖掘算法是两步走算法Apriori,即连接步和剪枝步。
算法使用频繁项集性质的先验知识,即频繁项集的所有非空子集必为频繁项集(称为下封闭特性)。利用这一性质可以有效的压缩搜索空间,使用一种称作逐层搜索的迭代方法,k-项集用于探索k+1-项集来逐层的找到所有用户感兴趣的频繁项集。具体地说,首先寻找1-频繁项集L1,利用1-频繁项集L1两两组合产生 2-候选项集C2,在C2中寻找2-频繁项集L2,再利用2-频繁项集L2中有重叠部分的两频繁项集的两两组合产生3-候选项集C3,依次下去直到某个CK+1为空。该算法能够快速、有效的挖掘出数据库中蕴含的用户感兴趣的频繁项集,进而产生用户想要的关联规则,
  
二、Apriori算法在影院资料管理系统中的应用
  
(一)运用Apriori算法确定会员选择电影间的关联关系
根据中的会员购买影票及预选电影的数据,挖掘数据间的关联规则,确定会员所选电影间的关联关系,为宣传规划,电影时间安排提供依据。
(二)确定数据挖掘的类型
假定全域是电影总局影片提供商可提供的电影的集合,则每个影片有一个布尔变量,表示该影片的有无。每个选择影片序列则可用一个布尔向量表示。可以分析布尔向量,得到反映电影频繁关联的观赏模式。这些模式可以用关联规则的形式表示,因此,可以确定:要找出数据之间的关联关系,可以通过挖掘会员资料管理数据库中观看电影的关联规则。因为只需考虑会员所选电影的单维数据,本文采用的方法是:先使用Apriori算法找出频繁项集,再由频繁项集产生关联规则。
(三)过程
1、确定数据挖掘的目标数据—会员资料管理数据库(Movi_mangeDB)中的会员选择影片和预选影片数据,包括影片名称(movi_name)以及放映时间(movi-time)。
2、通过如下关系查询,收集任务相关的数据集。
3、确定最小支持度阈值min_sup。
4、使用Apriori找出频繁项集。
假定选中的元组数为9,即D=9,元组标识符TID表示,按字典次序存放。
5、由频繁项集产生关联规则。
L={I1,I2,I5},L的非空子集有:{I1, I2},{I1, I5},{I2, I5},{I1},{I2}和{I5}。结构关联规则如下,每个都列出置信度:
I1∧I2=>I5, confidence=2/4=50%
I1∧I5=>I2, confidence=2/2=100%
I5∧I5=>I1, confidence=2/2=100%
I1=>I2∧I5, confidence=2/6=33%
I2=>I1∧I5, confidence=2/7=29%
I5=>I1∧I2, confidence=2/2=100%
如果最小置信度阈值为70%,则只有(2)、(3)和(6)条规则可以输出。
设最小支持度计数为3(即min_sup=3/9=33%),则其侯选项集和频繁项集产生见表1。
  

  
三、实验测试
  
设影片全域:{I1=“门徒(数字)”,I2=“生日快乐”,I3=“满城尽带黄金甲”,I4=“空战英豪”,I5=“双子神偷”,I6=“爱情呼叫转移”,I7=“静静的嘛呢石”,I8=“落叶归根”,I9=“亚瑟和他的迷你王国”。
从会员资料管理数据库(Movi_mange
_DB)中通过关系查询得到D。设最小事务支持度计数为3(即min_sup=3/8=37.5%).min_conf=70%,则输出规则有:I3>I4,I9>I3。即选择“满城尽带黄金甲”影片的会员同时也倾向于选择"空战英豪”影片,选择“亚瑟和他的迷你王国”影片的会员同时也倾向于选择“满城尽带黄金甲”影片。基于上述分析结果,还运用数据挖掘的关联规则寻找项集,并根据已知阈值,确定最小项集。得到会员个人资料管理数据库的分析结果。例如:可得到如下规则:
age(20-30)∧sex(male)=>movi(battle)
type(student)∧age(20-25)=>movi(Comedy)
Occupation(computer)∧sex(male)=>movi(Documentary)
age(30-40)∧sex(Female)=>movi(Animation)
这几个规则只是结果的一小部分 (例如,第一个关联规则表示:年龄在20-30之间、男性,对战争片比较感兴趣)。综合所有的结果,可以进行以下的数据分析:
各年龄段会员观赏的影片的倾向,当代大学生学生票价半价观看影片的数量,各种职业类型观看影片的差异,对于某些有一定热门的国际国内新映影片,如何安排影厅及放映时间能够使会员更方便一些?因此,该方法结论的合理程序对数据有较大的依赖性,当历史数据量日趋庞大,影片规划日趋完善,将对影片模块组合的合理性形成一个良性循环的促进作用。
  
四、本算法的实现意义
  
(一)算法在数据挖掘系统中的作用
此算法做为数据挖掘系统关联规则算法中的其中一个,它是在经典的Apriori算法的基础上进行改进的。Apriori算法是关联规则模块中最基础的算法,该算法对原始数据进行有针对性的筛选,提出用户感兴趣的项,在对其中的项进行挖掘。
(二)算法在实际应用中的作用
在过去的许多挖掘关联规则的工作中都没有考虑基础项集的范围。一般都是把数据库所出现的所有项作为基础项集进行挖掘,然而,在实际中,很多挖掘关联规则的时候仅仅对其中的某些项感兴趣。例如,在超市的事务型数据库中,主管人员想知道关于冰箱的一些情况。
在论文中,新的算法将找出针对用户感兴趣的基础项集,然后对其进行数据挖掘。针对上述几条规则,影院集团采取了具体措施:在影厅安排上,因某几个场面浩大的影片同时需要巨幕影厅,这些影片的时间安排就需要错开准备;如果某些影片观看数量较大、时间段紧密,可以作两个或三个影厅同时放映的准备。在宣传工作上,有喜剧、枪战偏好的会员,可根据地址电话在必要时统一通知场次时间以及价位,以保证影院方便会员的服务质量。在销售上,可以采用捆绑销售,部分影片采用特价方式,比如针对学生、会员的优惠政策,上座率不高的影片的半价销售,非黄金时间段的折扣价位。在座位选择上,可根据上映影片的类型来选择情侣座位、家庭座位,提供贴心方便的服务。在使用这几条规则以来,这些电影票房一路看好,票房均有不同幅度的上涨,产生了一定的经济效益。
  
参考文献:
  
1、邵峰晶,于忠清.数据挖掘原理与算法[M].中国水利出版社,2003.
2、滕皓,赵国毅.改进关联规则的研究[J].济南大学学报,2004,(3).
3、陈文伟.决策支持系统及其开发[M].清华大学出版社,2000.
4、赵丹群.数据挖掘:原理、方法及其应用[J].现代图书情报技术,2005(6).
5、郑伟发.基于BS的高校毕业生就业信息系统的开发[J],广东商学院学报,2002。
6、Jiawei Han,Michcline Kam.數据挖掘概念与技术[M].机械工业出版社,2001.
(作者单位:辽宁对外经贸学院)
                            
                            
                            
                        
                            
                        关键词:信息管理系统;数据挖掘;关联规则;支持度;置信度
一、关联规则及算法概述
若两个或多个变量的取值之间存在某种规律性,就称为关联。关联规则挖掘技术用于发现数据库中属性之间的有趣联系,旨在寻找在同一事件中出现的不同项的相关性。关联规则技术适用于购物篮分析,可以找出潜在的令人感兴趣的产品组合,从大量的事务记录中发现潜在的关联关系,帮助管理者做出正确的商务决策。
最典型的例子就是“啤酒和尿布”的故事,在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也发现一些规律,在购买婴儿尿布的年轻父亲们中,有30%-40%的人同时要买一些啤酒。超市随后对货架摆放做了调整,把尿布和啤酒放在了一起,增加了销售额。
Apriori算法是一种最有影响的挖掘布尔型关联规则频繁项集的算法。Apriori使用一种称作逐层搜索的迭代方法,经典的关联规则挖掘算法是两步走算法Apriori,即连接步和剪枝步。
算法使用频繁项集性质的先验知识,即频繁项集的所有非空子集必为频繁项集(称为下封闭特性)。利用这一性质可以有效的压缩搜索空间,使用一种称作逐层搜索的迭代方法,k-项集用于探索k+1-项集来逐层的找到所有用户感兴趣的频繁项集。具体地说,首先寻找1-频繁项集L1,利用1-频繁项集L1两两组合产生 2-候选项集C2,在C2中寻找2-频繁项集L2,再利用2-频繁项集L2中有重叠部分的两频繁项集的两两组合产生3-候选项集C3,依次下去直到某个CK+1为空。该算法能够快速、有效的挖掘出数据库中蕴含的用户感兴趣的频繁项集,进而产生用户想要的关联规则,
二、Apriori算法在影院资料管理系统中的应用
(一)运用Apriori算法确定会员选择电影间的关联关系
根据中的会员购买影票及预选电影的数据,挖掘数据间的关联规则,确定会员所选电影间的关联关系,为宣传规划,电影时间安排提供依据。
(二)确定数据挖掘的类型
假定全域是电影总局影片提供商可提供的电影的集合,则每个影片有一个布尔变量,表示该影片的有无。每个选择影片序列则可用一个布尔向量表示。可以分析布尔向量,得到反映电影频繁关联的观赏模式。这些模式可以用关联规则的形式表示,因此,可以确定:要找出数据之间的关联关系,可以通过挖掘会员资料管理数据库中观看电影的关联规则。因为只需考虑会员所选电影的单维数据,本文采用的方法是:先使用Apriori算法找出频繁项集,再由频繁项集产生关联规则。
(三)过程
1、确定数据挖掘的目标数据—会员资料管理数据库(Movi_mangeDB)中的会员选择影片和预选影片数据,包括影片名称(movi_name)以及放映时间(movi-time)。
2、通过如下关系查询,收集任务相关的数据集。
3、确定最小支持度阈值min_sup。
4、使用Apriori找出频繁项集。
假定选中的元组数为9,即D=9,元组标识符TID表示,按字典次序存放。
5、由频繁项集产生关联规则。
L={I1,I2,I5},L的非空子集有:{I1, I2},{I1, I5},{I2, I5},{I1},{I2}和{I5}。结构关联规则如下,每个都列出置信度:
I1∧I2=>I5, confidence=2/4=50%
I1∧I5=>I2, confidence=2/2=100%
I5∧I5=>I1, confidence=2/2=100%
I1=>I2∧I5, confidence=2/6=33%
I2=>I1∧I5, confidence=2/7=29%
I5=>I1∧I2, confidence=2/2=100%
如果最小置信度阈值为70%,则只有(2)、(3)和(6)条规则可以输出。
设最小支持度计数为3(即min_sup=3/9=33%),则其侯选项集和频繁项集产生见表1。

三、实验测试
设影片全域:{I1=“门徒(数字)”,I2=“生日快乐”,I3=“满城尽带黄金甲”,I4=“空战英豪”,I5=“双子神偷”,I6=“爱情呼叫转移”,I7=“静静的嘛呢石”,I8=“落叶归根”,I9=“亚瑟和他的迷你王国”。
从会员资料管理数据库(Movi_mange
_DB)中通过关系查询得到D。设最小事务支持度计数为3(即min_sup=3/8=37.5%).min_conf=70%,则输出规则有:I3>I4,I9>I3。即选择“满城尽带黄金甲”影片的会员同时也倾向于选择"空战英豪”影片,选择“亚瑟和他的迷你王国”影片的会员同时也倾向于选择“满城尽带黄金甲”影片。基于上述分析结果,还运用数据挖掘的关联规则寻找项集,并根据已知阈值,确定最小项集。得到会员个人资料管理数据库的分析结果。例如:可得到如下规则:
age(20-30)∧sex(male)=>movi(battle)
type(student)∧age(20-25)=>movi(Comedy)
Occupation(computer)∧sex(male)=>movi(Documentary)
age(30-40)∧sex(Female)=>movi(Animation)
这几个规则只是结果的一小部分 (例如,第一个关联规则表示:年龄在20-30之间、男性,对战争片比较感兴趣)。综合所有的结果,可以进行以下的数据分析:
各年龄段会员观赏的影片的倾向,当代大学生学生票价半价观看影片的数量,各种职业类型观看影片的差异,对于某些有一定热门的国际国内新映影片,如何安排影厅及放映时间能够使会员更方便一些?因此,该方法结论的合理程序对数据有较大的依赖性,当历史数据量日趋庞大,影片规划日趋完善,将对影片模块组合的合理性形成一个良性循环的促进作用。
四、本算法的实现意义
(一)算法在数据挖掘系统中的作用
此算法做为数据挖掘系统关联规则算法中的其中一个,它是在经典的Apriori算法的基础上进行改进的。Apriori算法是关联规则模块中最基础的算法,该算法对原始数据进行有针对性的筛选,提出用户感兴趣的项,在对其中的项进行挖掘。
(二)算法在实际应用中的作用
在过去的许多挖掘关联规则的工作中都没有考虑基础项集的范围。一般都是把数据库所出现的所有项作为基础项集进行挖掘,然而,在实际中,很多挖掘关联规则的时候仅仅对其中的某些项感兴趣。例如,在超市的事务型数据库中,主管人员想知道关于冰箱的一些情况。
在论文中,新的算法将找出针对用户感兴趣的基础项集,然后对其进行数据挖掘。针对上述几条规则,影院集团采取了具体措施:在影厅安排上,因某几个场面浩大的影片同时需要巨幕影厅,这些影片的时间安排就需要错开准备;如果某些影片观看数量较大、时间段紧密,可以作两个或三个影厅同时放映的准备。在宣传工作上,有喜剧、枪战偏好的会员,可根据地址电话在必要时统一通知场次时间以及价位,以保证影院方便会员的服务质量。在销售上,可以采用捆绑销售,部分影片采用特价方式,比如针对学生、会员的优惠政策,上座率不高的影片的半价销售,非黄金时间段的折扣价位。在座位选择上,可根据上映影片的类型来选择情侣座位、家庭座位,提供贴心方便的服务。在使用这几条规则以来,这些电影票房一路看好,票房均有不同幅度的上涨,产生了一定的经济效益。
参考文献:
1、邵峰晶,于忠清.数据挖掘原理与算法[M].中国水利出版社,2003.
2、滕皓,赵国毅.改进关联规则的研究[J].济南大学学报,2004,(3).
3、陈文伟.决策支持系统及其开发[M].清华大学出版社,2000.
4、赵丹群.数据挖掘:原理、方法及其应用[J].现代图书情报技术,2005(6).
5、郑伟发.基于BS的高校毕业生就业信息系统的开发[J],广东商学院学报,2002。
6、Jiawei Han,Michcline Kam.數据挖掘概念与技术[M].机械工业出版社,2001.
(作者单位:辽宁对外经贸学院)