基于Web日志的数据挖掘技术研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:wycgdxx86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络正在成为人们进行信息交流和信息处理的有效平台,各种数字化的信息每天以极高的速度增长,网络上积累了海量的数据。面对如此巨大的信息量,如何发现自已所需信息,成了困扰网络用户的一大难题。另外,网站不能对用户及其页面进行聚类,因此也不能针对特定的用户给出特殊的服务。为了解决上述问题,Web挖掘技术应运而生,其中,面向Web服务器日志的Web日志挖掘技术尤其得到了众多研究人员的关注。利用Web日志挖掘技术可以发现相似的用户群体和相关页面,还可以发现用户访问站点的浏览模式。 本篇论文主要从以下几个方面对Web日志挖掘进行了系统的分析和研究。 1、阐述了Web日志挖掘的意义、研究的现状、面临的问题; 2、对数据挖掘和Web挖掘进行了概述,研究和分析了Web日志挖掘的预处理过程,对预处理后的数据,可以根据具体的需求来选择诸如聚类、分类、关联规则等数据挖掘技术。 3、本文提出了一种基于矩阵的模糊动态聚类算法——权值关联矩阵模糊动态算法,用于实现用户和页面的快速聚类,即根据用户的浏览行为,发现相似的用户群体;根据web页面被用户访问的情况,发现相关页面组。该算法将网站访问频度作为参数考虑进来,并采用了加权的方法,在权值关联矩阵上实行动态聚类。它不是简单的将矩阵元素定义为访问和未访问两种状态,因而能够更准确的反映网站的访问情况,使聚类显得更自然更符合客观实际。 4、通过实验验证了该算法的有效性、灵活性和扩展性。 本文最后总结了工作尚存的不足,并指出了今后的研究方向。
其他文献
数字水印技术是解决多媒体作品版权保护的有效技术手段,甚至被认为是最后一道防线。该技术有效解决了基于密码技术保护的多媒体作品一旦解密就会失去版权保护的难题。 用于
在安全系统中,惟一重要的接口是能够进入安全周界的外部接口,可信进程明显运行于安全周界之内且是安全内核的扩展。所以,可信进程与内核之间的接口不比内核各部分之间的接口更特
大规模三维几何数据集广泛应用于虚拟现实、视频游戏、工程设计、地理勘测等领域。随着计算机处理能力的增强以及对几何数据的规模和表示精度要求的提高,数据集愈加复杂,目前有
随着计算机技术和网络技术在我国民航领域的飞速发展和广泛应用,民航票务信息已经成为民航代理人和航空公司在客票销售、市场预测、客运服务等方面的重要参考内容。然而,由于民
随着各种嵌入式系统的应用,嵌入式领域已成为当前研究的热点之一。与嵌入式硬件相比嵌入式软件已经成为嵌入式系统发展的瓶颈。而嵌入式软件开发环境在嵌入式应用日益复杂的情
由于指纹的唯一性和不变性,以及指纹识别技术的可行性和实用性,指纹识别已成为当前最流行、最方便、最可靠的个人身份认证技术之一。被广泛应用在考勤、银行密码箱、公安系统
天然地震层析成像是研究地球的一个重要手段,尤其在研究莫霍面以下深度的地球结构方面,有着不可替代的作用。其原理主要是通过读取远震信号的 P 波初至时间,运用射线追踪的方
随着心理学科学的快速发展和信息处理技术在心理学领域的应用,国内外心理学研究者和有关部门长期对大量群体实施心理测量积累了庞大的宝贵数据资料。在这些大量的数据背后隐藏
随着计算机技术、多媒体技术、网络技术和通信技术的迅速发展,图像信息的应用日益广泛,图像处理在理论研究和实际应用中都取得了飞速的发展,并已广泛地应用于越来越多的科学领域
桌面搜索(或称个人信息检索)是定义在本地个人信息空间上的搜索过程,旨在帮助个人用户有效的搜索到所需要的本地资源(即文件)。近年来随着社会信息化进程的不断推进,大数据时代悄然