基于分布式计算的一个最大频繁项目集挖掘算法

来源 :第七届中国Rough集与软计算、第一届中国Web智能、第一届中国粒计算联合会议(CRSSC-CWI-CGrC'2 | 被引量 : 0次 | 上传用户:Lincon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是数据挖掘中一个基本而重要课题,它反映了大量数据中的某些项目之间隐含的相关性和依存性。对于如何更高效地求解,多年来已经有许多研究者从不同方面进行尝试,并提出了各自的算法:Agrawal提出了经典的Apriori算法,自底向上地求解所有频繁项目集;韩家炜等人根据数据集的特点,提出了具有针对性的FP-tree结构,大大地降低了扫描数据库所需的代价;还有通过求解最大频繁项目集,来对问题进行转化求解的多种算法。其中最大频繁项目集挖掘是近年来很受关注的一类方法。在这一方面,比较具代表性的有Max-Miner、FpMax、DMFIA等。Max-Miner。的特点是改变了自底向上的传统思路,采用动态排序的方法对项目集进行了剪枝,但在修剪时未利用自顶向下的信息,未对MFCS进行排序;Fp-Max算法的最大特色是将已挖掘出的最大频繁项目集使用FP-tree结构进行保存,减小了筛选候选频繁项目集的代价;DMF1A则结合了自底向上和自顶向下的特点,在FP-tree结构中采用非递归的方式进行挖掘,但在候选频繁项目集的剪枝上效率不够理想。事实上,在实际应用中,数据往往有以下特点:①分布式结构,数据并不存在单一数据库中,而是分布式存储;②稀疏,一件事务所含项目的个数远小于项目总数;③可归并,经过简单的排序和比较就可以发现事务是可归类的,某一类事务的所含的项目集都是某个集合的子集。以超市数据库为例,超市分为多家连锁店,各店拥有独立的购物记录;商品种类繁多,而购物者一次购买的商品数目较少;商品可分为电器、食品、家具等门类,购物者一次只购买其中一类或几类商品。如何根据实际数据的特点,充分利用项目间的关联程度进行分布式求解,是本文要讨论和希望解决的问题。
其他文献
Web挖掘的三个主要方向是:关联规则挖掘、序列分析和聚类分析。本文研究了对Web用户的聚类,使用的信息来源是Web日志(Web log),属于一种Web使用记录挖掘,然而不同于传统的Web使用
对高空减压病加压治疗的新经验及减压气泡检测方法的新成就进行了综述,并对下述几种情况的处理提出了相应的建议:高空上升时在空中未发病;空中发病、下降至地面时症状已消除以及下降至地面后发病的病例。对体表心前区多普勒超声气泡检测的假阳性与假阴性问题,以及视觉辅助系统与计算机辅助系统在提高检测方法的敏感性与特异性方面的作用进行了讨论。
聚类分析作为一种无监督的学习方法在模式识别、机器学习等领域得到了广泛的研究,并已成功应用于实际。随着网络的发展和信息收集技术的进步,实际应用的数据正变得越来越庞大和
会议
Rakesh Agrawal等对超市数据进行分析时首先提出了序列模式(sequential patterns)发现这-KDD分支。经典的序列模式发现算法包括:RAgrawal等人提出ArioriAll算法和GSP算法;PSP算
会议
本文基于FCA和Galois联络理论,对近似信息系统关联规则挖掘方法进行了讨论。论文提出了精确关联规则生成基和近似关联规则特征基的概念,并由此设计挖掘最小非冗余关联规则MNR算
聚类就是按照一定的要求和规律对事物进行区分和分类的过程。在这一过程中没有任何关于类别的先验知识,也没有教师的指导,仅靠事物间的相似性作为类属划分的准则,因此属于无监督
会议
系统预测的实质就是通过对系统测试的一些历史数据拟合,建立一个系统模型,即得到一个系统函数,根据得到的该函数就可以计算出以后某一时刻的数据,从而达到系统预测的目的。人工神
会议
土地利用变化的主要原因来自于不同土地利用方式下土地利用边际效用的大小。本文引入生态位理论,反映不同土地利用方式相互作用的大小和强度,并对江苏省1993年-2005年土地利用
国内外的实践表明,建立自然保护区是保护生物多样性和恢复生态服务功能最重要的途径之一,但同时自然保护区的建立对当地居民的传统生产活动和生活方式产生了一定的不利影响,因此
编者:他是第41届世界技能大赛的CAD机械设计获奖者,更是90后;他是华南理工大学本硕连读机械类创新班学子,更是华南理工机器人协会低调实力干将。【赛场上的中国少年】2011年1