【摘 要】
:
随着大数据时代的到来,各行各业中充斥着海量的数据。能否快速且有效的从海量数据中获得有用的信息是当今衡量一个企业是否具有竞争力的一个标准。关联规则挖掘的提出使之可以高效的挖掘数据中隐含有价值的、人们感兴趣的知识与规则。但由于挖掘需求的改变以及挖掘过程中阈值设置困难的问题,Top-k高效用项目集挖掘的出现使之相对于关联规则挖掘被更广泛地应用于实际生活当中。本文对单机模式和分布式集群环境下的高效用项目集
论文部分内容阅读
随着大数据时代的到来,各行各业中充斥着海量的数据。能否快速且有效的从海量数据中获得有用的信息是当今衡量一个企业是否具有竞争力的一个标准。关联规则挖掘的提出使之可以高效的挖掘数据中隐含有价值的、人们感兴趣的知识与规则。但由于挖掘需求的改变以及挖掘过程中阈值设置困难的问题,Top-k高效用项目集挖掘的出现使之相对于关联规则挖掘被更广泛地应用于实际生活当中。本文对单机模式和分布式集群环境下的高效用项目集挖掘算法进行研究,主要内容包括:针对现有的Top-k高效用项目集挖掘算法在挖掘过程中阈值提升慢,迭代时生成大量候选项集造成的内存占用过多问题,提出一种基于R-list的改进TKO算法。使用一种称为R-list的数据结构,能快速访问存储链表中的信息提高挖掘效率。该算法结合改进的RSD阈值提升策略在挖掘前便提升阈值,使用集合枚举树代表搜索空间,期间采用更严格的剪枝参数,在递归搜索的过程中同时计算多个项目集的效用来缩小搜索空间。在不同类型数据集中进行实验结果表明:改进算法在内存效率方面均优于其他Top-k高效用项目集挖掘算法,且在K值的变化下能保持稳定。为了解决分布式集群环境下,传统挖掘算法在挖掘大规模数据时存在时间效率过低和内存溢出的问题,将改进TKO算法与Spark进行结合,提出一种基于Spark的并行化高效用项目集挖掘算法STKO。选择Spark平台,改变原有数据储存结构,利用广播变量优化迭代过程,避免大量重新计算的同时使用负载均衡思想实现Top-k高效用项目集的并行挖掘。实验结果表明,STKO算法可以有效挖掘大数据集中的高效用项目集,能够满足分布式集群环境下对大数据进行高效用项目集挖掘的需要。
其他文献
对目前流行的7种PCB软件:P-CAD(Ver 2.00)、ORCAD(Ver 2.00)、EEsystem(Ver 2.00)、Redboard & Redlog(Ver 2.00)、Tango(Ver 2.00)、Autoboard(Ver 2.00)及Smartwork(Ver 1.
古典舞表演者在演出时常常从以下三点来表现古典舞的神韵:线的流程、圆的形态、韵的内核.舞者只有将这三点有机融合,才能深入地挖掘古典舞的吸引力和蕴含的内在思想感情,进一
设计日新月异,不断前进,包装设计课程教学也要不断的更新开拓,当下高校《包装设计》课程要得以发展,如何探索创新教学模式,如何创建校内外实践教学工作室,是提高学生的知识应
从应用型创新人才的能力培养入手,阐述包装行业在国民经济中的位置,并说明高等教育与行业对接的重要性,提出基于应用型创新人才培养模式下的包装材料学课程教学改革。从多媒
我国商业银行首次发行的“建元”和“开元”两只信贷资产债券的技术设计表明,在当前我国金融机构存在较严重的存贷差的条件下,商业银行的资产证券化创新动力实际上是不足的。政
文章利用层次分析法对乳制品品牌顾客满意度指标体系进行权重分配,并以重庆天友为例进行实证研究。针对调研结果,指出了重庆天友乳制品品牌存在的问题。
针对当前学生对编程课程学习热情普遍不高的情况,提出在编程语言教学中使用案例教学法来激发学生的学习热情。首先,对案例教学法进行了解释;然后,结合软件工程专业的C#程序设计课
目的评价BPD完美支架可摘局部义齿的临床修复效果。方法将83例牙列缺损患者随机分成试验和对照组,分别制作76件BPD完美支架义齿和60件传统钴铬合金支架义齿,采用患者自我评价和
目的:观察壮药溃结栓直肠给药治疗溃疡性结肠炎(UC)的临床疗效。方法:将60例患者随机分为2组各30例,治疗组予溃结栓直肠给药,对照组予柳氮磺胺吡啶栓剂直肠给药,均以15天为1疗程,共治
一、研究背景癌症已成为全世界每个地区发病率和死亡率的重要原因,严重威胁着人类的健康。其中,肺癌的发病率和死亡率仍占第一位,呈逐年上升趋势。随着肿瘤免疫学的不断发展,肿瘤的免疫治疗成为继分子靶向治疗之后的新热点,其中PD-1/PD-L1信号途径为近年来肿瘤免疫治疗的研究热点之一,其阻滞剂抗PD-1、抗PD-L1抗体可以通过阻断负性免疫调节信号,逆转肿瘤逃逸从而杀伤肿瘤,临床上已证实其对多种瘤种显示出