基于马尔可夫模型的Web访问预测技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：zsjingling

【摘要】

：

近些年来，Web的发展非常迅速，已经成为人们获取信息的重要渠道。但随着网络规模的扩大，包含的信息越来越多，用户很容易迷失在信息的海洋中。怎样使用户更快更好地找到自己感兴趣

【作者】

：

任颖新

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2011年期

【关键词】

：

马尔可夫模型 Web访问预测数据挖掘关联规则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近些年来，Web的发展非常迅速，已经成为人们获取信息的重要渠道。但随着网络规模的扩大，包含的信息越来越多，用户很容易迷失在信息的海洋中。怎样使用户更快更好地找到自己感兴趣的内容成为当前很多学者关注和研究的重点，主要的做法就是使用数据挖掘的算法来挖掘用户的历史访问信息，从而挖掘出用户的访问模式。预测用户的访问行为可以改善网站结构，为用户提供个性化推荐和预取服务等。Web访问预测问题已经成为Web数据挖掘领域的研究热点之一，而基于马尔可夫模型的方法是其中最常用的方法。　　马尔可夫(Markov)模型是由Andrei A.Markov提出的，有扎实的理论基础，已经在网络，可靠性分析，序列模式挖掘等多个方面得到了广泛的应用。最早是[3]将一阶马尔可夫模型引入Web使用挖掘领域，而后众多的学者对基于马尔可夫模型的方法进行了改进，提出了全k阶模型及其变种，包括可选择的模型，可变长度模型，树形模型等。如何在有限的时间复杂度和空间复杂度的条件下得到可观的预测精度一直是相关学者关注的重点。　　本文基于已有的基于全k阶马尔可夫模型，引入了一种混合马尔可夫模型，与传统的全k阶马尔可夫模型相比，大大缩减了模型的大小。通过对2个实际的日志数据的分析说明了其有效性。本文的主要工作包括:　　(1)介绍了Web使用挖掘的基本概念以及访问预测的研究进展。介绍了Web数据挖掘和Web使用挖掘的相关的概念;对Web使用挖掘的一般流程进行了介绍;然后详细介绍了各种访问预测技术，包括基于马尔可夫模型的方法、关联规则、聚类和基于最大熵模型的方法。我们着重介绍了基于马尔可夫模型的方法;　　(2)使用了一种基于混合马尔可夫模型的预测算法。我们的出发点仍然是全k阶模型，全k阶模型是指训练1到k阶的各阶马尔可夫模型，在高阶的马尔可夫模型不能进行预测时，使用低阶的马尔可夫模型进行预测。我们使用的方法的内在思想就是应该考虑前面若干步访问的各个页面对下一个要访问的页面的影响，下一步的访问页面是这些影响的综合的结果，这与全k阶马尔可夫模型在本质上是一致的。首先我们给出了方法的框架，介绍了方法的形式化定义和数学基础，然后使用EM算法进行参数估计，最后将得到的模型用于预测。　　(3)实证研究。使用2个实际的日志数据对本文提出的方法进行了分析，分析基于预测精度，预测时间2个指标来进行。其中预测精度我们使用的是TOP-N预测精确度:看正确的页面是否在预测的前N个页面的集合中，如果在，则视为预测正确，否则则为预测错误。我们使用了若干个不同的N值，通常对于实际应用如预取，推荐系统等，N的值一般设在10左右。结果显示与全k阶模型相比，该方法缩减了模型参数复杂度并且提供了与全k阶模型相当甚至更好的预测精度，同时还减小了预测所需的预测时间。

其他文献

自我感觉并非良好

“你们新闻界自我感觉如何?”这里有几位总编辑和专家的发言,从中可见一斑。在一次经济特区和沿海开放城市党报协作会上,解放日报副总编辑陈迟同志在发言中讲了这样一段故事

期刊

自我感觉解放日报采访写作副总编辑沿海开放城市新闻规律陈迟日及邵阳日报新闻失真

基于进程代数的软件体系结构形式化与演化研究

软件系统需要不断的改变来适应外界环境和用户需求，否则就将变得越来越无用，因此软件演化是软件工程的一个非常重要的内容。而由于目前软件系统的规模越来越大，复杂程度越来越高

学位

进程代数软件体系结构软件演化形式化

浅析反函数的性质及其应用

反函数是高中数学中的一个重要内容,由这个知识点所设计的考题经常出现在各级各类的选拔性考试试卷中.为使同学们能比较深刻地理解反函数的概念和性质,本文分类阐述有关性质,

期刊

反函数数的概念考试试卷高中数学知识点应用选拔设计考题分类地理

一个支持委托授权的RSS订阅系统的设计与实现

RSS作为一种重要的Web应用依靠其高效、简单、成本低等特点迅速的发展起来，成为当今互联网跟踪、聚合网络信息的重要手段。尤其是在线RSS阅读器（提供RSS收取、阅读服务的网站），如

学位

RSS订阅系统系统设计委托授权机制OAuth标准

基于h指数及其衍生度量的关键类识别方法研究

软件维护是软件工程领域面临的重要课题之一。分析和理解程序是软件维护工作的第一步，能否对程序进行准确、快速和全面的理解在很大程度上影响着维护工作的进展。在通常情况下

学位

关键类识别方法h指数面向对象程序理解衍生度量软件维护类间依赖图

高中数学直线方程教学情境的有效设置

在进行高中数学教学的时候,直线方程在教学中一直都扮演很重要的地位,在高考的时候,也是作为必考内容出现的.作者在平时教学过程中发现,在日常课堂上对直线方程的内容部分进

期刊

高中数学直线方程教学情境学生知识综合应用数学教学情境设置教学效果教学过程课堂上学习检测基础公式高考地位

MagicMQ：高性能消息中间件研究与实现

与传统的远程过程调用相比，消息中间件为应用程序提供了一种异步的，可靠的通讯机制，该机制保证消息可靠地到达目的地并且只到达一次。在故障条件下，消息中间件临时存储消息。一旦

学位

分布式系统消息中间件Overlay网络排队论

探讨提高高中数学教学效率的方法

如何有效提高高中数学教学效率,一直是广大学者和一线教师研究的重点.高中新课标要求教学模式的改革与创新,注重在课堂中倡导以“创设问题、主动参与、乐于探究、交流与合作

期刊

高中数学教学效率知识的意义数学问题课堂教学交流与合作高中新课标改革与创新抽象与具体应用数学学习方法学生理解数学乐于探究教学模式教学

基于域描述语言的Java规则引擎实现方法

伴随着信息技术的深入发展和应用,各领域的业务规则变得非常庞大与复杂,这些规则可来自于领域知识,各种业务规则。如何有效的表示,管理与使用这些规则,成为各行业重要的研究

学位

规则引擎域描述语言扩展巴克斯范式产生式表示法JAVACC

基于激光测距数据的北斗卫星和zigbee的授时系统改进设计

我国自主设计出的北斗卫星和zigbee授时系统很少,多数授时系统性能不达标。为此,使用激光测距数据对名为“北斗一号”的北斗卫星和zigbee的授时系统进行改进设计。其介绍了“

期刊

激光测距北斗卫星zigbee模数转换授时系统北斗一号工作流通信信息控制平台系统性能

基于马尔可夫模型的Web访问预测技术研究

其他学术论文