基于马尔可夫模型的Web访问预测技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:zsjingling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,Web的发展非常迅速,已经成为人们获取信息的重要渠道。但随着网络规模的扩大,包含的信息越来越多,用户很容易迷失在信息的海洋中。怎样使用户更快更好地找到自己感兴趣的内容成为当前很多学者关注和研究的重点,主要的做法就是使用数据挖掘的算法来挖掘用户的历史访问信息,从而挖掘出用户的访问模式。预测用户的访问行为可以改善网站结构,为用户提供个性化推荐和预取服务等。Web访问预测问题已经成为Web数据挖掘领域的研究热点之一,而基于马尔可夫模型的方法是其中最常用的方法。  马尔可夫(Markov)模型是由Andrei A.Markov提出的,有扎实的理论基础,已经在网络,可靠性分析,序列模式挖掘等多个方面得到了广泛的应用。最早是[3]将一阶马尔可夫模型引入Web使用挖掘领域,而后众多的学者对基于马尔可夫模型的方法进行了改进,提出了全k阶模型及其变种,包括可选择的模型,可变长度模型,树形模型等。如何在有限的时间复杂度和空间复杂度的条件下得到可观的预测精度一直是相关学者关注的重点。  本文基于已有的基于全k阶马尔可夫模型,引入了一种混合马尔可夫模型,与传统的全k阶马尔可夫模型相比,大大缩减了模型的大小。通过对2个实际的日志数据的分析说明了其有效性。本文的主要工作包括:  (1)介绍了Web使用挖掘的基本概念以及访问预测的研究进展。介绍了Web数据挖掘和Web使用挖掘的相关的概念;对Web使用挖掘的一般流程进行了介绍;然后详细介绍了各种访问预测技术,包括基于马尔可夫模型的方法、关联规则、聚类和基于最大熵模型的方法。我们着重介绍了基于马尔可夫模型的方法;  (2)使用了一种基于混合马尔可夫模型的预测算法。我们的出发点仍然是全k阶模型,全k阶模型是指训练1到k阶的各阶马尔可夫模型,在高阶的马尔可夫模型不能进行预测时,使用低阶的马尔可夫模型进行预测。我们使用的方法的内在思想就是应该考虑前面若干步访问的各个页面对下一个要访问的页面的影响,下一步的访问页面是这些影响的综合的结果,这与全k阶马尔可夫模型在本质上是一致的。首先我们给出了方法的框架,介绍了方法的形式化定义和数学基础,然后使用EM算法进行参数估计,最后将得到的模型用于预测。  (3)实证研究。使用2个实际的日志数据对本文提出的方法进行了分析,分析基于预测精度,预测时间2个指标来进行。其中预测精度我们使用的是TOP-N预测精确度:看正确的页面是否在预测的前N个页面的集合中,如果在,则视为预测正确,否则则为预测错误。我们使用了若干个不同的N值,通常对于实际应用如预取,推荐系统等,N的值一般设在10左右。结果显示与全k阶模型相比,该方法缩减了模型参数复杂度并且提供了与全k阶模型相当甚至更好的预测精度,同时还减小了预测所需的预测时间。
其他文献
“你们新闻界自我感觉如何?”这里有几位总编辑和专家的发言,从中可见一斑。在一次经济特区和沿海开放城市党报协作会上,解放日报副总编辑陈迟同志在发言中讲了这样一段故事
软件系统需要不断的改变来适应外界环境和用户需求,否则就将变得越来越无用,因此软件演化是软件工程的一个非常重要的内容。而由于目前软件系统的规模越来越大,复杂程度越来越高
反函数是高中数学中的一个重要内容,由这个知识点所设计的考题经常出现在各级各类的选拔性考试试卷中.为使同学们能比较深刻地理解反函数的概念和性质,本文分类阐述有关性质,
RSS作为一种重要的Web应用依靠其高效、简单、成本低等特点迅速的发展起来,成为当今互联网跟踪、聚合网络信息的重要手段。尤其是在线RSS阅读器(提供RSS收取、阅读服务的网站),如
软件维护是软件工程领域面临的重要课题之一。分析和理解程序是软件维护工作的第一步,能否对程序进行准确、快速和全面的理解在很大程度上影响着维护工作的进展。在通常情况下
在进行高中数学教学的时候,直线方程在教学中一直都扮演很重要的地位,在高考的时候,也是作为必考内容出现的.作者在平时教学过程中发现,在日常课堂上对直线方程的内容部分进
与传统的远程过程调用相比,消息中间件为应用程序提供了一种异步的,可靠的通讯机制,该机制保证消息可靠地到达目的地并且只到达一次。在故障条件下,消息中间件临时存储消息。一旦
如何有效提高高中数学教学效率,一直是广大学者和一线教师研究的重点.高中新课标要求教学模式的改革与创新,注重在课堂中倡导以“创设问题、主动参与、乐于探究、交流与合作
伴随着信息技术的深入发展和应用,各领域的业务规则变得非常庞大与复杂,这些规则可来自于领域知识,各种业务规则。如何有效的表示,管理与使用这些规则,成为各行业重要的研究
我国自主设计出的北斗卫星和zigbee授时系统很少,多数授时系统性能不达标。为此,使用激光测距数据对名为“北斗一号”的北斗卫星和zigbee的授时系统进行改进设计。其介绍了“