论文部分内容阅读
近年来,随着Internet技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络中获得。同时,由于Internet在全球的互连互通,可以从中取得的数据量难以计算。为此,如何在Internet这个全球最大的数据集合中发现有用信息己成为研究热点,这就是Web挖掘。Web挖掘的方法和技术很多,其中挖掘关联规则是Web挖掘研究的一个重要方面,对关联规则的挖掘问题进行优化研究非常必要,是目前该领域研究热点之一。尽管传统的数据库技术和数据挖掘技术己经取得了飞速的发展并且日趋完善,但由于Web数据结构的特殊性,使得传统技术不能直接应用在Web的信息挖掘中。Web日志数据是记录用户对Web站点访问信息的数据,保存着大量用户访问路径信息,从Web日志中发现有用的信息是非常必要的,对这些信息的分析有利于设计人员掌握用户的喜好和访问习惯,网站设计人员应考虑调整网站结构,对用户比较关心的实时信息查询加大投入力度,找出一个如何更好地去优化网站结构的策略。本文针对关联规则在网络用户访问日志的数据挖掘应用,做了以下研究工作:1.深入研究了数据挖掘技术,包括它的基本概念、基本原理、主要算法、以及数据挖掘的主要流程等;深入学习Web数据挖掘的基本知识、流程、以及研究和发展状况。2.在上述研究的基础上,对关联分析中关联规则挖掘算法FP-Growth算法展开具体的研究,并提出了一种改进的关联规则挖掘算法(DFP-Growth算法),算法进行了以下3点改进:①算法不再需要根据头指针表和FP树生成条件子树而挖掘频繁模式。从而简化了原算法的频繁模式挖掘工作,提高了挖掘效率。②在建立FP-tree之前,对事务集按照支持度大小进行纵向排序,减少了FP-tree的共享前缀的搜索时间,减低了时间复杂度。③引入两维数组来记录事务集项目之间的支持度关系,从而减少搜索次数。3.对一个企业商务应用网站的用户访问日志进行研究,在分析了日志数据的结构与含义后从“Web使用挖掘”的角度提出挖掘需求,根据需求对采集数据进行了一系列预处理,避免了挖掘算法产生大量无用序列的问题,然后用改进后的算法对事务集进行挖掘,挖掘出数据中有意义的关联规则,为企业商务网站的优化提供了有价值的指导。