集群环境下的关联规则挖掘及应用

来源 :太原科技大学 | 被引量 : 9次 | 上传用户:whbin139
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据催生了各行各业的迅猛发展,各领域呈现出了新产品、技术、服务和发展业态。大数据的战略意义不在于拥有庞大的数据资源,而在于提高对数据的"加工能力",通过"加工"实现数据的"增值"。数据挖掘是实现大数据知识发现的有效手段和途径,利用数据挖掘技术能够深层次地了解大数据背后的价值。关联规则作为数据挖掘领域中的一个主要研究内容,可以在不知道或无法确定数据的关联函数或模型时,有效发现大量数据项集之间有趣的关联信息。现有的关联规则挖掘算法因其时空复杂性和I/O代价高,难以适应大数据分析处理任务。本文充分利用MapReduce集群系统的强大数据处理能力,研究了面向大数据的关联规则挖掘方法和性能优化技术,并将其应用于冷轧辊加工质量分析。主要研究成果如下:(1)提出了两种Hadoop集群环境下的频繁项集并行挖掘FiDoop和FiDoop-HD算法。FiDoop算法充分利用了 MapReduce编程模型强大的计算能力,并实现了频繁模式树的压缩存储,避免了条件模式基的递归建立,有效提高了并行挖掘效率;FiDoop的扩展算法FiDoop-HD通过降低项目集的分解代价,从而能够有效地适应于高维数据集。在Hadoop集群平台上,实验验证了该并行算法的可行性和有效性。(2)针对包含FiDoop在内的频繁模式并行挖掘任务存在的数据非本地性问题,提出一种面向频繁项集并行挖掘的数据划分策略FiDoop-DP。该策略利用Voronoi图和LSH技术,尽量将相关性高的事物尽量划分在同一个数据分区,有效地降低了网络传输和计算代价,提高了海量数据的分析效率。在Hadoop集群平台上,实验验证了该数据划分策略的有效性。(3)提出了一种基于Spark内存计算的并行频繁项集挖掘算法。该算法充分利用了 Spark集群的内存计算优势和对迭代式数据处理的支持,并利用新定义的节点计算量预估模型,解决了其在计算过程中出现的负载不均衡问题。在Spark集群平台上,实验验证了该算法的有效性。(4)设计与实现了集群环境下的冷轧辊加工质量分析原型系统。以某钢铁企业的冷轧辊产品生产为背景,利用上述频繁项集挖掘算法和数据划分策略,开发了冷轧辊质量分析原型系统,并对其冷轧辊生产数据预处理、软件体系结构及各模块功能给出了详细分析。运行结果表明该原型系统可以有效发现冷轧辊加工过程中的关键工序及工序间的相关性,从而为企业开展产品质量控制提供了一种新的技术和解决思路。
其他文献
蓝莓,又称越橘、蓝浆果,基本营养成分为果糖、蛋白质、脂肪、氨基酸、紫檀芪、超氧化物歧化酶等,富含花青素,在小肠中的吸收率高,具有降血糖、抗炎、抗肿瘤和增殖作用。贵州
<正> 宋应星(1587——约清顺治年间),字长庚,我国十七世纪卓越的科学家和思想家。其著《天工开物》总结了明代以前中国劳动人民在农业、手工业等方面所取得的巨大成就,被誉为
<正> 当京剧名家李少春生前主演的《野猪林》,几乎成为当今舞台绝响,幸有所摄之电影传世,口碑至今扰存。然时隔近半世纪,1998年10月17日,由天津京剧团王平等多位名角,于上海
<正>李渔是清初著名的戏曲作家和戏曲理论家,为中国古代戏曲的发展与繁荣作出过很大的贡献,他所创作的传奇《笠翁十种曲》其文学性、舞台性、音乐性与娱乐性都很强,被近代戏
目的:探讨失代偿期肝硬化肝损伤急性加重患者在肝衰竭(LF)分型中的合理定位,为临床诊治提供参考依据。方法:采用回顾性分析方法,从2009年1月至2015年4月在安徽医科大学第一附
随着生态文学逐步走向繁荣,国外的生态批评(生态文学研究)日趋兴盛,目前已经成为文学研究的显学。著名生态批评家、哈佛大学教授劳伦斯·布伊尔说,当他在20世纪90年代进入生
义务教育发展是我国教育发展的重要战略,学生、家长和教师对义务教育均衡发展的满意度是义务教育均衡发展水平的最终衡量标准。本文以榆林市为调查对象,以问卷调查研究方法实证
目的:分析严重糖尿病酮症酸中毒死亡原因。方法:比较3例患者的诊治经过,寻找可行的治疗方法及治疗时机。结果:3例患者中2例死因为心血管事件,1例为呼吸衰竭。结论:积极改善心、脑
<正> 新皮亚杰主义(NEO-Plageian)是把信息加工的观点和皮亚杰的认知发展理论结合起来而形成的研究儿童认知发展的心理学流派。主张儿童认知发展不只是数量的增加,而且有着质
目的探讨综合疗法对不同年龄段、不同弱视程度、不同屈光性质及不同注视性质的弱视儿童的治疗效果。方法选取2013年8月至2015年8月在新疆民政康复医院治疗的弱视患儿620例(89