论文部分内容阅读
数据挖掘和World Wide Web是当前计算机科学两个重要的研究领域,将二者结合起来就形成了新的研究领域Web数据挖掘。Web数据挖掘是从WWW上发现和分析有用的信息,帮助人们从WWW中提取知识,改进站点设计,提供个性化服务。 本文分主要从以下四个方面对Web使用挖掘进行了系统的分析和研究。第一是对数据挖掘和Web挖掘进行了概述,阐述了Web挖掘的意义、研究的现状、面临的问题。第二是讨论了Web使用挖掘的三个阶段:在数据准备和预处理阶段重点讨论了数据清洗及用户和会话识别算法;在模式发现阶段定义了关联规则和序列模式的数据模型;模式分析阶段则讨论了现行的几种分析方法。第三是本文提出了一个综合性的聚类算法CPPC。由于缓存和代理的存在,数据预处理阶段一般都是采用基于一定假设的启发式算法,这就造成了数据源的不可靠性。本文算法避免了这个缺陷,且不需要复杂的HASH数据结构,通过构造一个User ID-UEL关联矩阵,对列向量进行相似性分析得到相似客户群体,对行向量进行相似性度量获得相关Web页面,对后者再进一步处理得到频繁访问路径。实验结果表明了算法的有效性。第四是本文将传统数据挖掘过程中的各种关键技术,引入到对Web使用信息的挖掘活动中,结合关系数据库的特点设计并实现了一个具有可 广西人学颀士学位论义视化功能的Web使用挖掘系统WLGMS。它可以为使用者提供决策支持,具有很强的实用性。最后本文根据目前的发展状况,提出了一些Web挖掘技术的研究方向。