基于频繁模式挖掘的网站优化策略研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:peng88888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,互联网的应用得到了很大程度的普及,各种门户网站层出不穷,这虽然丰富了人们获得信息的途径,但同时也带来了一些问题。对于普通用户来说,从种类繁多的门户网站中获得对自己有价值的信息是比较困难的。因此,如何优化网站的拓扑结构和网页内容,方便用户在海量的数据中获得其感兴趣的信息,是网站建设者和管理者必须考虑的问题。Web日志挖掘指的是从网站的日志数据中挖掘出有价值的信息。其中,频繁模式挖掘是Web日志挖掘的一种常用方法,挖掘结果通常是用户感兴趣的浏览路径。利用频繁模式挖掘方法对网站用户的浏览日志进行挖掘,挖掘结果可以用于网站的优化和改进。本文系统的阐述了Web日志挖掘的流程和频繁模式挖掘的相关内容。针对目前频繁模式挖掘算法中存在的不足做出改进,并且重点研究了在频繁模式挖掘过程中结合页面兴趣度算法的应用。最后利用本文的算法对重庆市农业农村信息化网的日志数据进行挖掘,根据挖掘结果优化网站,证实了算法的可行性。论文主要研究内容包括:(1)本文提出了双约束多支持度频繁模式挖掘算法(DS_MSA)。简要分析了目前已有的频繁模式挖掘算法中存在的问题,据此提出了DS_MSA算法。本算法采用多重最小支持度,对模式的最小支持度采用双重约束的方式,根据项集权重,确定不同的约束条件。采用这种方式,可以根据模式的重要性对其挖掘,保证挖掘结果全部是用户感兴趣的。通过多数据集测试,本算法不论是挖掘数量还是挖掘质量都较其他算法有较大改进。(2)提出了改进的页面兴趣度计算方法。为了表示不同的网页对于用户的意义,本文采用页面兴趣度衡量每个页面的重要程度。本文提出的页面兴趣度计算模型综合考虑了可以表现用户兴趣的用户浏览行为、页面出现频次、页面浏览速度、页面入度等多个因素,相较以往的页面兴趣度算法更加科学。通过与用户的显性数据对比,也证实了算法的有效性。(3)将页面兴趣度模型与DS_MSA算法结合。将DS_MSA算法应用到Web日志挖掘中,把每个页面当作一个项目,则需要对每个页面的重要程度进行刻画。本文采用页面兴趣度来表现页面的重要程度。根据页面兴趣度确定页面的权重,并且根据页面兴趣度来限制DS_MSA算法挖掘过程中最小支持度的约束条件。针对重庆市农业农村信息网的日志数据,利用基于页面兴趣度的DS_MSA算法进行挖掘,得到用户的频繁访问模式,利用该模式对网站拓扑结构和内容进行优化和改进,本文对具体的优化策略也进行了简要的说明。本文的主要创新之处在于,改进了页面兴趣度的计算方法,并且采用双约束的方式限制挖掘模式的最小支持度,使挖掘结果更加贴近用户的兴趣,在一定程度上改善了原有挖掘算法的组合爆炸和稀有项目缺失的问题。利用挖掘结果,可以根据农业网站用户的特点,达到网站优化的目标。
其他文献
随着各个行业数字信息呈现指数式的增长,为方便信息组织和管理,需对海量电子信息数据按其内容进行分类,因此对文本自动分类技术提出了更高的要求。目前比较成熟的研究和应用主要
近年来,随着Web服务兴起与发展,Web服务数量急剧增加,给信息服务带来越来越大的压力,这就需要改进Web服务的描述方法,以消除服务冗余,减轻网络负担。另外,随着学术界以及产业
随着计算机、通信和网络技术的发展和普及,密码学已经从外交和军事等领域走向公开,已经发展成为一门结合数学、计算机科学、电子与通信、微电子等技术的交叉学科。随着INTERN
数字图像置乱作为一种图像加密方法或者信息隐藏的预处理手段,近年来得到了广泛的应用和高度的重视。目前,已有很多置乱算法在研究、应用中发挥着积极的作用。但总的来说还存
论文首先对决策树ID3算法的局限性进行了分析,针对ID3算法倾向于选择属性值个数多的属性、学习能力有限等缺陷,提出了基于属性筛选模型的ID3算法。  改进的ID3算法采用Filter
随着农村信息化技术的发展,我国农村信息化服务取得到了良好的实效。中部山区农村信息化的区域特殊性,使得它的信息化需求不同于其他沿海或发达地区的农村信息化。按其他地区的
随着计算机图形学及数字媒体技术的快速发展,三维图形技术被广泛应用于生物信息学、医学、计算机辅助设计、三维游戏等领域。与此同时,三维模型的数量呈指数级增长,面对如此
伴随经济的快速发展,各种自然的或人为的突发事件发生的几率越来越大,应对和处理突发事件的能力也要求越来越高,不管是何类突发事件,在处置过程中都需要保障资源,所以资源保
基于XML的异构数据集成中间件是解决企业异构数据库系统间信息孤岛问题的有效方法,该方法通过为用户提供统一的全局资源管理平台,使用户不必知道各个数据库的分布和组成结构
随着网络与信息技术的迅速发展,因特网现今已经成为人们获所需信息的重要途径之一,然而网络中存在的大量信息在给人们带来便利的同时也带来了许多的问题,愈来愈多对个性化信息的