改进的关联规则挖掘算法在WEB挖掘中的应用

被引量 : 0次 | 上传用户：linqingxia15

【摘要】

：

近年来,随着Internet技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络中获得。同时,由于Internet在全球的互连互通,可以从中取得的数据量难以计算。为此,如何

【作者】

：

苗海

【发表日期】

：

2009年期

【关键词】

：

数据挖掘关联规则 FP树 FP-Growth算法频繁序列用户访问日志

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着Internet技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络中获得。同时,由于Internet在全球的互连互通,可以从中取得的数据量难以计算。为此,如何在Internet这个全球最大的数据集合中发现有用信息己成为研究热点,这就是Web挖掘。Web挖掘的方法和技术很多,其中挖掘关联规则是Web挖掘研究的一个重要方面,对关联规则的挖掘问题进行优化研究非常必要,是目前该领域研究热点之一。尽管传统的数据库技术和数据挖掘技术己经取得了飞速的发展并且日趋完善,但由于Web数据结构的特殊性,使得传统技术不能直接应用在Web的信息挖掘中。Web日志数据是记录用户对Web站点访问信息的数据,保存着大量用户访问路径信息,从Web日志中发现有用的信息是非常必要的,对这些信息的分析有利于设计人员掌握用户的喜好和访问习惯,网站设计人员应考虑调整网站结构,对用户比较关心的实时信息查询加大投入力度,找出一个如何更好地去优化网站结构的策略。本文针对关联规则在网络用户访问日志的数据挖掘应用,做了以下研究工作:1.深入研究了数据挖掘技术,包括它的基本概念、基本原理、主要算法、以及数据挖掘的主要流程等;深入学习Web数据挖掘的基本知识、流程、以及研究和发展状况。2.在上述研究的基础上,对关联分析中关联规则挖掘算法FP-Growth算法展开具体的研究,并提出了一种改进的关联规则挖掘算法(DFP-Growth算法),算法进行了以下3点改进:①算法不再需要根据头指针表和FP树生成条件子树而挖掘频繁模式。从而简化了原算法的频繁模式挖掘工作,提高了挖掘效率。②在建立FP-tree之前,对事务集按照支持度大小进行纵向排序,减少了FP-tree的共享前缀的搜索时间,减低了时间复杂度。③引入两维数组来记录事务集项目之间的支持度关系,从而减少搜索次数。3.对一个企业商务应用网站的用户访问日志进行研究,在分析了日志数据的结构与含义后从“Web使用挖掘”的角度提出挖掘需求,根据需求对采集数据进行了一系列预处理,避免了挖掘算法产生大量无用序列的问题,然后用改进后的算法对事务集进行挖掘,挖掘出数据中有意义的关联规则,为企业商务网站的优化提供了有价值的指导。

其他文献

互联网金融模式及对传统银行业的影响分析

近年来,随着社会经济的不断发展,互联网信息化逐渐发展为社会需要的主流,各行各业通过互联网改变了传统的经营管理模式,使各行各业的经济得到了飞速的发展,提升了整个社会的

期刊

互联网金融模式传统银行业影响分析

上海市大中型工业企业自主创新能力评价研究

上海正处于应对金融危机的关键时期,能不能率先提高自主创新能力,是决定上海未来发展生死攸关的大问题。随着新一轮城市化与工业化的进程,上海市大中型工业企业已成为全市科

学位

上海大中型工业企业自主创新能力评价指标体系

基于历史视角的（货币）经济区研究

本文的研究对象是(货币)经济区以及基于(货币)经济区的人民币国际化战略与次序。本文研究的重点是如何创造更好的条件以促使人民币尽快登上国际经济舞台的中心,减少人民币国

学位

经济区经验借鉴国际主导货币影子储备货币战略与次序

2011年我国对欧盟中成药出口贸易分析

<正>2011年我国对欧盟中药出口额4.16亿美元,同比增长66.26%,整体出口量价都同比上涨,而中成药对欧盟的出口量同比却有一定程度的下降(见图1)。2004年,欧盟颁布的《传统草药

期刊

出口贸易中成药

加巴喷丁对糖尿病神经病理痛大鼠背根神经节FGF-2表达的影响

目的观察加巴喷丁（GBP）对链脲佐菌素（STZ）诱导糖尿病神经病理性痛（DNP）大鼠背根神经节成纤维细胞生长因子2（FGF-2）蛋白表达的影响,以探讨其镇痛机制。方法将80只SD大鼠随机分为C组、D

期刊

加巴喷丁糖尿病神经病理性痛背根神经节成纤维细胞生长因子2

新会计准则对投资性房地产公司的影响

本论文主要是基于对《企业会计准则第3号——投资性房地产》理解,通过对采用公允价值计量投资性房地产上市公司的报表及公告比较分析,从中总结出新准则对于投资性房地产上市

学位

企业会计准则第3号投资性房地产盈余管理纳税政策资产评估

采收期和加工方法对杭白芍中芍药苷含量的影响

目的:通过比较不同采收期和不同加工方法对杭白芍中芍药苷含量的影响,确定合理的采收期和加工方法。方法:以芍药苷含量为指标,采用HPLC法,测定不同采收期和不同加工方法杭白

期刊

杭白芍芍药苷采收期加工方法

沙质海岸不同植被梯度带的土壤蓄水功能

对胶南沿海沙质海岸5种植被梯度带下9种植被模式的水分物理性状及土壤蓄水功能进行了研究。结果表明:①随着从沿海至内陆的过渡,胶南沙质海岸带营造灌草带-基干林带-丘陵水土

期刊

沙质海岸土壤物理性状土壤入渗土壤蓄水功能

四川盆地马尾松低效林改造后林地侵蚀变化及其预测

通过定位试验，分析了四川盆地马尾松低效林改造后林地侵蚀变化，并用多元线性回归和马尔柯夫模型对林地侵蚀模数的变化趋势进行了预测。结果表明：①林分改造极其有效地遏制了水土

期刊

马尾松低效林侵蚀多元线性回归马尔柯夫模型

返魂草生产技术标准操作规程(SOP)(讨论稿)

期刊

标准操作规程定植时间种子来源中药材生产质量管理规范生产技术SOP

改进的关联规则挖掘算法在WEB挖掘中的应用

其他学术论文