论文部分内容阅读
目前,关联规则作为数据挖掘领域中一个非常重要的研究课题,己经取得了令人瞩目的成绩,但在实际应用中,随着数据库规模逐渐增大,出现了随着数据量递增而算法挖掘效率下降的问题,具有应用局限性。因此,必须研究和改进现有的算法,使其具有更高的效率和更广阔的应用前景。首先,本文对数据挖掘技术进行全面的分析,从数据挖掘的定义、任务、体系结构以及数据挖掘的模型进行研究,特别是对数据挖掘的方法进行了细分和比较。其次,本文研究了关联规则中经典的Apriori算法及其改进算法。为了解决这些算法在候选项目集和执行时间方面存在的问题,结合关联规则的性质和布尔向量的关系运算思想,提出了基于布尔矩阵的关联规则挖掘算法(Algorithm Base on Boolean Matrix)和幂集合算法(Power.Set)。布尔矩阵的关联规则算法在挖掘过程中仅扫描数据库一次,而且不产生候选项目集,从而减少了生成频繁项目集的时间开销,提高了算法效率;幂集合算法完全脱离Apriori算法的结构,它主要利用拆解交易记录的方式进行,其主要步骤是将每一条读入的交易记录根据特定原则快速拆解成各项目集,当数据库经过一次扫描后,表示所有的交易记录也同时被拆解完成,随后输入最小支持度和置信度,就可快速挖掘出符合使用者需要的频繁项目集,进而得到其关联规则。两种算法都达到了算法改进的目的。为了验证算法的性能,本文采用了实例法和实验法对提出的新算法和经典的Apriori算法进行了对比测试。试验结果表明,两种改进的算法在效率上明显优于Apriori算法,而且挖掘的数据量越大,数据库变化快,改进的算法效率越高,两种算法都具有较好的可扩展性和较广阔的应用前景。最后,将基于布尔矩阵的关联规则算法应用在商场营销中,发现物品之间的关联性,为决策者提供指导和数据支持,从而提高企业利润。