论文部分内容阅读
随着Internet应用的迅速发展,信息过载使人们面对太多的信息而难以选择和消化,信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,使人们易于信息迷失。迫切需要一种新的技术使人们在海量数据中查找想要的数据和有用信息时能自动地发现、抽取和过滤信息。个性化推荐技术的出现,使得人们从无限的网络信息资源和繁杂的商品世界中解脱出来,大大节省了用户在信息搜索上花费的时间和精力,也使得Web网站从以“网页”为中心转换为以“用户”为中心,给用户提供个性化服务,向着网络服务的更高层次发展。由于已有的个性化推荐技术在收集匿名用户信息、推荐实时性和准确性等方面存在不足,本文在研究经典的关联规则挖掘算法基础上,提出基于XML及关联规则的Web挖掘技术来分析和挖掘Web用户访问日志,得到用户对Web网站的频繁访问模式,采用基于关联规则的个性化推荐技术以提高Web站点访问效率。论文主要工作包括:①对个性化推荐技术的研究背景、研究现状、实际应用意义以及Web使用挖掘的理论基础进行了阐述和分析,并对关联规则挖掘的基本原理进行了说明。②本文运用由XML技术衍生出来的XGMML和LOGML实现Web访问日志的表示和存储,采用数据清理、用户识别、会话识别、路径补充和事务识别等步骤完成Web日志挖掘中的数据预处理。③在分析了Apriori算法和FP-growth算法后提出了利用MFIT对FP-growth算法进行改进。改进的FP-growth算法降低了挖掘最大频繁项目集的搜索空间,以及减少了超集检测所做的项目匹配次数,从而提高了算法的执行效率。④设计和实现了一个个性化推荐原型系统,在利用用户频繁访问模式进行页面推荐的过程中引入页面的距离因子的计算来提高推荐质量。本文的研究工作是对挖掘关联规则的FP-growth算法的切实可行的改进,对研究关联规则的挖掘算法具有一定的参考价值;对用户访问模式的研究有利于提高站点信息服务质量,促进智能信息处理领域的发展,在理论和实践上都有重要的研究意义。