论文部分内容阅读
Internet的迅速发展,给人们带来丰富信息和极大便利的同时,也随之产生了一些亟待解决的问题,构建智能化的Web站点便是其中之一。直接或间接的解决这个问题的途径之一就是将数据挖掘技术应用于Web。
基于Web的数据挖掘主要分为Web内容挖掘、Web结构挖掘和Web使用挖掘。本文主要对Web使用挖掘进行研究。Web使用挖掘通过对Web服务器的日志文件进行挖掘发现用户的访问模式,也称为Web日志挖掘。Web使用挖掘在改善网络结构、网站性能,提高网站的安全性,为用户提供个性化服务,电子商务等方面起着重要的作用,并具有广阔的发展前景。
Web日志中保存的历史数据反映了用户访问页面的意向,利用日志中的信息可以预测客户将来可能发出的访问请求,预测包括学习和匹配。学习是分析历史行为或其他客户行为,提取客户一般情况下或所属类别的行为模型;匹配是确定正在进行的客户行为模型,根据共同访问模式来推断将来的请求。
本课题研究了WEB日志挖掘系统的基本理论,分析了WEB日志挖掘系统的发展历史、研究现状、研究内容及存在的问题,在此基础上引入智能计算技术——遗传算法作为解决问题的方法。
同时本论文提出了基于多种数据挖掘技术的WEB日志挖掘系统的总体框架设计方案,重点研究了系统中的数据预处理模块与挖掘模块的设计与实现,以及挖掘模块算法库中的自适应遗传算法的设计与实现,并且利用新的Web日志信息实现了增量式的规则维护与更新。
最后根据本论文的设计方案对已有的Web日志数据进行了实验,结果表明可以发现有效的频繁访问模式,以及对已有的访问模式集进行增量式的更新;基于得到的模式集,可以实现Web用户的行为预测,并且预测的准确率和召回率都有一定的改进,有助于Web站点的改进和站点为用户提供个性化、智能化服务。