论文部分内容阅读
随着互联网技术的飞速发展,网络正在成为人们进行信息交流和信息处理的有效平台,各种数字化的信息每天以极高的速度增长,网络上积累了海量的数据。面对如此巨大的信息量,如何发现自已所需信息,成了困扰网络用户的一大难题。另外,网站不能对用户及其页面进行聚类,因此也不能针对特定的用户给出特殊的服务。为了解决上述问题,Web挖掘技术应运而生,其中,面向Web服务器日志的Web日志挖掘技术尤其得到了众多研究人员的关注。利用Web日志挖掘技术可以发现相似的用户群体和相关页面,还可以发现用户访问站点的浏览模式。
本篇论文主要从以下几个方面对Web日志挖掘进行了系统的分析和研究。
1、阐述了Web日志挖掘的意义、研究的现状、面临的问题;
2、对数据挖掘和Web挖掘进行了概述,研究和分析了Web日志挖掘的预处理过程,对预处理后的数据,可以根据具体的需求来选择诸如聚类、分类、关联规则等数据挖掘技术。
3、本文提出了一种基于矩阵的模糊动态聚类算法——权值关联矩阵模糊动态算法,用于实现用户和页面的快速聚类,即根据用户的浏览行为,发现相似的用户群体;根据web页面被用户访问的情况,发现相关页面组。该算法将网站访问频度作为参数考虑进来,并采用了加权的方法,在权值关联矩阵上实行动态聚类。它不是简单的将矩阵元素定义为访问和未访问两种状态,因而能够更准确的反映网站的访问情况,使聚类显得更自然更符合客观实际。
4、通过实验验证了该算法的有效性、灵活性和扩展性。
本文最后总结了工作尚存的不足,并指出了今后的研究方向。