论文部分内容阅读
近些年来,Web的发展非常迅速,已经成为人们获取信息的重要渠道。但随着网络规模的扩大,包含的信息越来越多,用户很容易迷失在信息的海洋中。怎样使用户更快更好地找到自己感兴趣的内容成为当前很多学者关注和研究的重点,主要的做法就是使用数据挖掘的算法来挖掘用户的历史访问信息,从而挖掘出用户的访问模式。预测用户的访问行为可以改善网站结构,为用户提供个性化推荐和预取服务等。Web访问预测问题已经成为Web数据挖掘领域的研究热点之一,而基于马尔可夫模型的方法是其中最常用的方法。 马尔可夫(Markov)模型是由Andrei A.Markov提出的,有扎实的理论基础,已经在网络,可靠性分析,序列模式挖掘等多个方面得到了广泛的应用。最早是[3]将一阶马尔可夫模型引入Web使用挖掘领域,而后众多的学者对基于马尔可夫模型的方法进行了改进,提出了全k阶模型及其变种,包括可选择的模型,可变长度模型,树形模型等。如何在有限的时间复杂度和空间复杂度的条件下得到可观的预测精度一直是相关学者关注的重点。 本文基于已有的基于全k阶马尔可夫模型,引入了一种混合马尔可夫模型,与传统的全k阶马尔可夫模型相比,大大缩减了模型的大小。通过对2个实际的日志数据的分析说明了其有效性。本文的主要工作包括: (1)介绍了Web使用挖掘的基本概念以及访问预测的研究进展。介绍了Web数据挖掘和Web使用挖掘的相关的概念;对Web使用挖掘的一般流程进行了介绍;然后详细介绍了各种访问预测技术,包括基于马尔可夫模型的方法、关联规则、聚类和基于最大熵模型的方法。我们着重介绍了基于马尔可夫模型的方法; (2)使用了一种基于混合马尔可夫模型的预测算法。我们的出发点仍然是全k阶模型,全k阶模型是指训练1到k阶的各阶马尔可夫模型,在高阶的马尔可夫模型不能进行预测时,使用低阶的马尔可夫模型进行预测。我们使用的方法的内在思想就是应该考虑前面若干步访问的各个页面对下一个要访问的页面的影响,下一步的访问页面是这些影响的综合的结果,这与全k阶马尔可夫模型在本质上是一致的。首先我们给出了方法的框架,介绍了方法的形式化定义和数学基础,然后使用EM算法进行参数估计,最后将得到的模型用于预测。 (3)实证研究。使用2个实际的日志数据对本文提出的方法进行了分析,分析基于预测精度,预测时间2个指标来进行。其中预测精度我们使用的是TOP-N预测精确度:看正确的页面是否在预测的前N个页面的集合中,如果在,则视为预测正确,否则则为预测错误。我们使用了若干个不同的N值,通常对于实际应用如预取,推荐系统等,N的值一般设在10左右。结果显示与全k阶模型相比,该方法缩减了模型参数复杂度并且提供了与全k阶模型相当甚至更好的预测精度,同时还减小了预测所需的预测时间。