改进的关联规则挖掘算法在WEB挖掘中的应用

被引量 : 0次 | 上传用户:linqingxia15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Internet技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络中获得。同时,由于Internet在全球的互连互通,可以从中取得的数据量难以计算。为此,如何在Internet这个全球最大的数据集合中发现有用信息己成为研究热点,这就是Web挖掘。Web挖掘的方法和技术很多,其中挖掘关联规则是Web挖掘研究的一个重要方面,对关联规则的挖掘问题进行优化研究非常必要,是目前该领域研究热点之一。尽管传统的数据库技术和数据挖掘技术己经取得了飞速的发展并且日趋完善,但由于Web数据结构的特殊性,使得传统技术不能直接应用在Web的信息挖掘中。Web日志数据是记录用户对Web站点访问信息的数据,保存着大量用户访问路径信息,从Web日志中发现有用的信息是非常必要的,对这些信息的分析有利于设计人员掌握用户的喜好和访问习惯,网站设计人员应考虑调整网站结构,对用户比较关心的实时信息查询加大投入力度,找出一个如何更好地去优化网站结构的策略。本文针对关联规则在网络用户访问日志的数据挖掘应用,做了以下研究工作:1.深入研究了数据挖掘技术,包括它的基本概念、基本原理、主要算法、以及数据挖掘的主要流程等;深入学习Web数据挖掘的基本知识、流程、以及研究和发展状况。2.在上述研究的基础上,对关联分析中关联规则挖掘算法FP-Growth算法展开具体的研究,并提出了一种改进的关联规则挖掘算法(DFP-Growth算法),算法进行了以下3点改进:①算法不再需要根据头指针表和FP树生成条件子树而挖掘频繁模式。从而简化了原算法的频繁模式挖掘工作,提高了挖掘效率。②在建立FP-tree之前,对事务集按照支持度大小进行纵向排序,减少了FP-tree的共享前缀的搜索时间,减低了时间复杂度。③引入两维数组来记录事务集项目之间的支持度关系,从而减少搜索次数。3.对一个企业商务应用网站的用户访问日志进行研究,在分析了日志数据的结构与含义后从“Web使用挖掘”的角度提出挖掘需求,根据需求对采集数据进行了一系列预处理,避免了挖掘算法产生大量无用序列的问题,然后用改进后的算法对事务集进行挖掘,挖掘出数据中有意义的关联规则,为企业商务网站的优化提供了有价值的指导。
其他文献
近年来,随着社会经济的不断发展,互联网信息化逐渐发展为社会需要的主流,各行各业通过互联网改变了传统的经营管理模式,使各行各业的经济得到了飞速的发展,提升了整个社会的
上海正处于应对金融危机的关键时期,能不能率先提高自主创新能力,是决定上海未来发展生死攸关的大问题。随着新一轮城市化与工业化的进程,上海市大中型工业企业已成为全市科
本文的研究对象是(货币)经济区以及基于(货币)经济区的人民币国际化战略与次序。本文研究的重点是如何创造更好的条件以促使人民币尽快登上国际经济舞台的中心,减少人民币国
<正>2011年我国对欧盟中药出口额4.16亿美元,同比增长66.26%,整体出口量价都同比上涨,而中成药对欧盟的出口量同比却有一定程度的下降(见图1)。2004年,欧盟颁布的《传统草药
目的观察加巴喷丁(GBP)对链脲佐菌素(STZ)诱导糖尿病神经病理性痛(DNP)大鼠背根神经节成纤维细胞生长因子2(FGF-2)蛋白表达的影响,以探讨其镇痛机制。方法将80只SD大鼠随机分为C组、D
本论文主要是基于对《企业会计准则第3号——投资性房地产》理解,通过对采用公允价值计量投资性房地产上市公司的报表及公告比较分析,从中总结出新准则对于投资性房地产上市
目的:通过比较不同采收期和不同加工方法对杭白芍中芍药苷含量的影响,确定合理的采收期和加工方法。方法:以芍药苷含量为指标,采用HPLC法,测定不同采收期和不同加工方法杭白
对胶南沿海沙质海岸5种植被梯度带下9种植被模式的水分物理性状及土壤蓄水功能进行了研究。结果表明:①随着从沿海至内陆的过渡,胶南沙质海岸带营造灌草带-基干林带-丘陵水土
通过定位试验,分析了四川盆地马尾松低效林改造后林地侵蚀变化,并用多元线性回归和马尔柯夫模型对林地侵蚀模数的变化趋势进行了预测。结果表明:①林分改造极其有效地遏制了水土