【摘 要】
:
关联规则挖掘技术是数据挖掘的重要方法之一,它的主要意义在于能够从数据中找出不同项目之间潜在的、有价值的关联关系。根据项目出现的频次,数据中的项可分为频繁项和稀有项
论文部分内容阅读
关联规则挖掘技术是数据挖掘的重要方法之一,它的主要意义在于能够从数据中找出不同项目之间潜在的、有价值的关联关系。根据项目出现的频次,数据中的项可分为频繁项和稀有项。其中,频繁项集的挖掘是目前人们关注的重点。但是,它在挖掘的过程中会过滤掉稀有项,而研究稀有关联规则能发现很多未知的、有价值的现实规律。并且,把这些规律应用在一些领域能带来很大的经济效益和社会效益。因此,如何能够快速有效地从数据中挖掘稀有关联规则,以提供给决策者更加科学的依据制定计划是数据挖掘领域的一个重要课题。大数据时代的到来,数据正以惊人的速度增长,如何从大规模数据中快速有效地挖掘稀有项集是一个关键问题。本文基于分布式计算框架Spark,根据稀有项集挖掘算法的特点,实现了稀有项集挖掘算法的并行化,从而使得算法能够快速高效的处理大数据问题。本文的主要研究工作有:(1)本文首先对DEclat算法进行阈值和筛选条件的重新设置,使得改进后的DEclat’算法适合稀有项集的挖掘。但是,DEclat’算法在挖掘稀有项集时,大量的求交操作导致了算法执行效率不高,针对这个问题本文基于散列布尔矩阵的思想提出了REclat算法。该算法减少了每一次求交集使用的时间,即减少了候选项集支持度计数使用的时间。通过理论分析和对比实验均表明,本文提出的REclat算法在不同事务量、不同属性量的数据集中,挖掘稀有项集时都具有良好的执行效率。(2)为了实现REclat算法在大数据环境下有效的进行稀有项集的挖掘,本文根据REclat算法的特点提出了在Spark框架下实现并行化的SP-REclat算法。首先,将相同前缀的项集进行等价类的划分,使得同一等价类划分在相同的计算节点。然后,相同节点的k-项等价类可以直接进行连接,生成(k+1)-项稀有项集。最后,对各节点生成的(k+1)-项稀有项集再次划分等价类。迭代的调用SP-REclat算法挖掘稀有项集,直到没有更多的稀有项集产生。以此实现了在Spark框架下REclat算法的并行化。最后,实验证明SP-REclat算法是可行有效的,且具有很好加速比和良好的可扩展性。
其他文献
随着移动互联网、物联网技术的发展,各行各业的信息量也呈几何指数增长。如何从海量数据中挖掘出有用信息,已成为大数据应用领域的研究热点。K-Means作为数据挖掘中一个简单
本文依托两个海底管线拟建项目,对南海北部的大亚湾和三亚湾开展海底沉积物腐蚀性调查,对区域内海洋环境腐蚀性进行了定性分析与评价,研究腐蚀因子之间的相关性及对海洋工程建设的影响,并讨论了海洋工程的灾害性因素,对海底管线的设计提供了防腐措施。文中所用数据来自大亚湾海区和三亚湾,在大亚湾共采集了10个海底表层沉积物样品,分析沉积物的pH、硫化物含量、含盐量、氧化还原电位(Eh)、有机碳含量、Fe3+/Fe
本文对二维无粘性无热传导Boussinesq方程,找到一类无界光滑区域及其上任意阶导都有指数增长的全局光滑解.过程中,发现多种光滑无界区域上,二维不可压Euler方程的显式稳态解.利用二维Boussinesq方程组与三维不可压Euler方程的相似性,得到一类三维轴对称无界光滑区域及其上各阶偏导都有指数增长的全局光滑解.二维无粘性无热传导Boussinesq方程组和三维不可压Euler方程组的全局正
目的:通过搜集慢性肾功能衰竭患者的临床相关资料,基于“肠-肾轴”理论探讨降氮煎剂治疗慢性肾衰竭脾肾气虚兼湿浊血瘀证的临床疗效及机理。材料与方法:通过回顾性研究的方法
太阳爆发活动是指太阳大气中剧烈的能量释放过程,主要包括日冕物质抛射(CME)和耀斑。CME是短时间内由太阳抛出的巨大磁化等离子体物质,是太阳系中尺度最大的爆发现象。耀斑是
近些年来,随着各种各样通信业务的出现,人们对数据流量的要求逐渐增高,这促使无线通信系统必须提供更高的系统频谱效率。在新一代移动通信系统中,出现了不少技术用来提升系统的频谱效率,如大规模MIMO系统、3D MIMO系统、毫米波系统等。3D MIMO系统通过高维结构的天线阵列,不仅提供了大天线带来的信道增益,同时利用了水平和垂直维度上的自由度,大幅提升系统容量和频谱利用率。为了充分利用3D MIMO系
随着计算机科学技术和智能硬件设备的快速发展,人类已经迈入智能化社会,智能监控广泛应用在国防、交通以及安防等领域。运动目标检测作为智能监控中的关键技术,已经成为智能
本文主要对局部紧正则locale的紧正则反射、局部紧正则locale的单点紧化以及紧locale的正规反射进行了研究。首先,本文提出了“补紧元”的概念,并通过“补紧元”的概念构造性地对局部紧正则locale进行了定义,解决了因为局部紧在locale上没有明确定义而导致拓扑空间中局部紧性质不能直接推广到locale上的问题。对给出的局部紧正则locale A,证明了A对“”关系保持插入性,并且由A的
胰岛素是胰腺β细胞分泌的多肽类激素,具有调节血糖水平的作用。通过检测血清或血浆中胰岛素含量,对临床上糖尿病相关疾病的诊断具有重要价值。疾病标志物的分析检测能为疾病的诊断和分类、检查临床治疗效果及预后等方面提供科学依据。因此研发成本低、检测简便、灵敏度高和抗干扰性强的用于胰岛素和疾病标志物检测的化学传感器具有十分重要的意义。电化学传感器是电化学分析与传感器技术的结合,而比色传感器是一种光学传感器,它
四川盆地古生界泥盆统海相碳酸盐油气为潜力储层,对泥盆系层位的勘探显示,龙门山地区中泥盆统观雾山组白云岩可作为优质的油气储层。而位于龙门山地区北川甘溪剖面是我国泥盆系典型标准剖面之一,也是国内泥盆系研究的热点区域。故此,为了打开四川盆地古生界油气勘探的新局面,对中泥盆统观雾山组基础地质的研究尤为重要。本文在分析前人研究成果上,通过野外剖面实测,结合铸体薄片、痕量元素、常量元素和稀土元素的分析,探讨北