Web日志挖掘技术研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:shihongxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW网上可利用信息呈现爆炸性的增长,人们发现快速有效地访问相关信息正变得越来越困难。对于网站的设计者来说,如何适应用户的访问需求来调整网站的内容与结构,也是一个非常有挑战性的任务。正是在这种情况下,Web数据挖掘技术应运而生。Web日志挖掘是目前Web数据挖掘中非常重要的一个研究领域和研究方向。Web站点的服务器日志数据记录了浏览用户对此Web站点访问时的大量路径。通过分析和发现Web日志记录中的规律,我们可以挖掘出Web用户潜在的使用规律和模式。这方面的研究成果可被广泛应用于发现电子商务中的潜在客户、提高Web服务的质量和效率以及优化企业信息门户性能等领域。本文从分析数据挖掘技术入手,着重研究如何利用Web日志挖掘技术分析日志得到用户对网站的访问模式。首先系统地介绍了数据挖掘和Web数据挖掘的基本概念和方法。然后针对Web日志挖掘,重点研究了Web日志数据预处理技术。关联规则挖掘是数据挖掘研究的一项重要内容。本文分析了Web日志中关联规则的经典挖掘算法Apriori算法及其不足之处,提出了基于矩阵约简技术的关联规则挖掘改进算法Apriori_BMR。新算法采用布尔矩阵来存储事务数据库,利用一定的约简规则来逐步约简事务数据矩阵,有效地解决了Apriori算法迭代产生频繁项集的瓶颈问题。实验表明,新算法比Apriori算法具有更高的效率和性能。
其他文献
文本聚类是在无监督条件下对文本集进行划分的过程。K-means算法作为划分聚类中最典型算法之一,具有算法简单、伸缩性强的优点,对于大规模文本集的聚类有较高的效率。但K-mea
IP电话(VoIP, Voice over IP)在互联网的高速发展下,以其费用低,占用带宽低等优势,正在逐渐取代传统的PSTN,成为下一代网络中语音信息传输的主要形式。作为建立VoIP会话的信
网络的融合和业务的融合为电信领域带来更广阔增值空间的同时,也为业务的生成带来更高的智能化挑战,业务作为下一代网络的关键环节受到人们的普遍关注,如何快速有效地进行新
IMS (IP Multimedia Subsystem, IP多媒体子系统)以其特有的开放、灵活的业务部署和提供方式打破了传统电路域能力上的瓶颈,IMS正在迅速地发展,其成为下一代核心网络的趋势已
随着家庭和小型办公系统的财产和电气设备不断增加,安全防范和火灾监测成为现代家庭和小型办公系统必须考虑的一个重要问题。大型的楼宇都有楼宇自动化装置,而小型的办公系统
软件测试是保障软件可靠性,提高软件质量的重要手段。随着软件规模的扩大,软件复杂性的提高,软件测试技术的不断发展,越来越多的测试人员发现传统手工测试成本高、执行繁琐、效率
移动流媒体技术是近年来研究的一个热点。随着全球3G牌照发放数量的增加,移动流媒体技术在手机中有着越来越广泛的应用,视频会议、远程监控和视频点播已经从个人电脑逐步应用到
随着我国高等教育事业的蓬勃发展,出现了一批适应时代和社会需求的高等职业专科院校,随着高职类院校办学规模的不断扩大、人数的快速增长,普遍存在着跨校区办学的状况。由于
构件库是支持大量软件构件统一形式化包装、分类描述、存储管理、检索浏览的构件复用基础设施,构件库支持大规模软件复用,能大幅度提高软件生产效率,降低成本。随着构件库相
随着移动设备的普及,人们积累了大量的轨迹数据。基于轨迹的路径推荐算法成为热点的研究问题。频繁路径算法(MFP)是经典的路径推荐算法之一,它通过轨迹重构权值图,以每条边被