数据挖掘在Web使用模式中的研究和应用

来源 :广西大学 | 被引量 : 0次 | 上传用户:dengjia1207
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘和World Wide Web是当前计算机科学两个重要的研究领域,将二者结合起来就形成了新的研究领域Web数据挖掘。Web数据挖掘是从WWW上发现和分析有用的信息,帮助人们从WWW中提取知识,改进站点设计,提供个性化服务。 本文分主要从以下四个方面对Web使用挖掘进行了系统的分析和研究。第一是对数据挖掘和Web挖掘进行了概述,阐述了Web挖掘的意义、研究的现状、面临的问题。第二是讨论了Web使用挖掘的三个阶段:在数据准备和预处理阶段重点讨论了数据清洗及用户和会话识别算法;在模式发现阶段定义了关联规则和序列模式的数据模型;模式分析阶段则讨论了现行的几种分析方法。第三是本文提出了一个综合性的聚类算法CPPC。由于缓存和代理的存在,数据预处理阶段一般都是采用基于一定假设的启发式算法,这就造成了数据源的不可靠性。本文算法避免了这个缺陷,且不需要复杂的HASH数据结构,通过构造一个User ID-UEL关联矩阵,对列向量进行相似性分析得到相似客户群体,对行向量进行相似性度量获得相关Web页面,对后者再进一步处理得到频繁访问路径。实验结果表明了算法的有效性。第四是本文将传统数据挖掘过程中的各种关键技术,引入到对Web使用信息的挖掘活动中,结合关系数据库的特点设计并实现了一个具有可 广西人学颀士学位论义视化功能的Web使用挖掘系统WLGMS。它可以为使用者提供决策支持,具有很强的实用性。最后本文根据目前的发展状况,提出了一些Web挖掘技术的研究方向。
其他文献
对企业中普遍存在的“自动化系统孤岛”问题进行了研究,在分析了其产生原因之后,对现有解决方案进行综述。目前方案的基本思想是在已有各个自动化系统孤岛之上,建立一个统一
本文研究了某型航空涡轴发动机的数学模型,进行了性能仿真。在了解原型发动机数学模型和控制规律的基础上,对涡轴发动机加速过程的最优控制问题进行了研究。最优化方法采用了当
人工神经网络是对生理学上人类大脑神经网络的结构、功能以及若干基本特性的某种理论抽象、简化和模拟而构成的一种信息系统。神经网络从两方面获得它的计算能力,一是大规模并
为了解决复杂背景下小目标运动的检测和跟踪问题,该文提出了一种基于图像差分和数据关联的运动目标检测和跟踪算法.首先,因为在图像序列的采集过程中,摄像机的视点位置在不断
超流体陀螺是基于物质波的干涉式陀螺仪,它具有高精度的测量潜力,并且具有独特的技术优势,是当前高精度陀螺仪领域的研究热点。基于超流体陀螺的工作原理,论文对其性能进行了
在快速准确地生成各种虚拟地理环境的时候,通常要模拟场景中的各种静态和动态特殊效应,其中包括云雾、水流、海面、波浪、地形、树木等,从而增强虚拟场景的真实感和实时性。而这
神经网络是人们模仿人的神经系统信息处理功能的一个智能化系统。尽管它还不是大脑的完美无缺的模型,但它可以通过学习来获取外部的知识并存储在网络内,可以解决计算机不易处理
随着智能交通系统(ITS)建设在全球范围内的蓬勃发展,专为解决车路短距离无线通信的ITS关键技术——DSRC技术也应运而生.从项目开发的角度,该论文基本反映了参与"专用短程通信
声源定位系统广泛的应用于社会生产,生活的各个方面,如电视会议系统,机器人路径规划系统等等.对声源定位的研究与语音信号处理的其他方面也紧密地结合在一起,如语音识别中的