论文部分内容阅读
新时代的到来不仅丰富了人们的物质生活、文化生活,更多的是给信息技术增添了活力的动力。面对高速化的信息时代,与之俱来的是公司可以获得更丰富、更详细、更多维的海量数据。大量离散型数据的存在为公司的科学化、合理化、有针对性的战略规划、营销方案以及人力规划奠定了基础,但是如何从这些多维且离散的数据中获得与战略规划、营销方案以及人力规划有实际意义的信息知识显得尤为重要。数据挖掘(Date Mining)在此背景下应运而生,数据挖掘是一种以数据库为基础,透过数理模式,从海量数据中搜索真正具备价值的规律,找出不同的客户或市场细分,进而进行消费者喜好和行为判断或推荐的一种科学方法。依据知识类型维度,特征分析、关联关系分析、分类预测、聚类分析、局外者分析等都隶属于数据挖掘知识范畴。其中关联关系分析也就是关联规则是计算机领域以及数学领域的热点之一。由Agrawal等人提出的Apriori算法是经典算法,其实现过程简单明了、思路清晰,但效率较为低。而且在实际生产生活过程中所获取的消费者交易数据是多维的,因此为了能挖掘出更具实际意义,能提高公司的整体销售利润的产品关联规则,本文重点在关联规则上做了研究,由于所有的产品都具备品牌属性和品类属性,同时在实际交易过程中,单例消费者存在同一品牌商品多量购买的现象,因此文章在分层关联规则的基础上融入了商品数量和利润的综合加权关联规则。本文研究内容主要包括:⑴介绍了数据挖掘以及关联规则的基本概念及实现过程,分别归纳整理Apriori算法的优劣点。⑵为了提高实现关联规则的效率,文章运用分层关联规则对数据交易库中的所有商品进行品类的关联关系确定,得到关于商品品类相关联的规则。随后在产生关联关系的产品品类基础之上分析关联品类具体品牌产品之间的关联规则,在交易数据库中针对TID的实际交易情况引入产品数量进行水平加权,针对项目集进行垂直加权,最终得到基于交易数据库综合加权的关联规则。⑶针对论文提出的改进方法采用某零售企业的交易数据库进行了测试实验。实验结果表明通过分层关联规则和综合加权关联规则得到的关于产品的关联关系在利润度、兴趣度以及购买率上三个维度上比经典算法性能较为优越。