论文部分内容阅读
随着信息技术的发展,互联网的应用得到了很大程度的普及,各种门户网站层出不穷,这虽然丰富了人们获得信息的途径,但同时也带来了一些问题。对于普通用户来说,从种类繁多的门户网站中获得对自己有价值的信息是比较困难的。因此,如何优化网站的拓扑结构和网页内容,方便用户在海量的数据中获得其感兴趣的信息,是网站建设者和管理者必须考虑的问题。Web日志挖掘指的是从网站的日志数据中挖掘出有价值的信息。其中,频繁模式挖掘是Web日志挖掘的一种常用方法,挖掘结果通常是用户感兴趣的浏览路径。利用频繁模式挖掘方法对网站用户的浏览日志进行挖掘,挖掘结果可以用于网站的优化和改进。本文系统的阐述了Web日志挖掘的流程和频繁模式挖掘的相关内容。针对目前频繁模式挖掘算法中存在的不足做出改进,并且重点研究了在频繁模式挖掘过程中结合页面兴趣度算法的应用。最后利用本文的算法对重庆市农业农村信息化网的日志数据进行挖掘,根据挖掘结果优化网站,证实了算法的可行性。论文主要研究内容包括:(1)本文提出了双约束多支持度频繁模式挖掘算法(DS_MSA)。简要分析了目前已有的频繁模式挖掘算法中存在的问题,据此提出了DS_MSA算法。本算法采用多重最小支持度,对模式的最小支持度采用双重约束的方式,根据项集权重,确定不同的约束条件。采用这种方式,可以根据模式的重要性对其挖掘,保证挖掘结果全部是用户感兴趣的。通过多数据集测试,本算法不论是挖掘数量还是挖掘质量都较其他算法有较大改进。(2)提出了改进的页面兴趣度计算方法。为了表示不同的网页对于用户的意义,本文采用页面兴趣度衡量每个页面的重要程度。本文提出的页面兴趣度计算模型综合考虑了可以表现用户兴趣的用户浏览行为、页面出现频次、页面浏览速度、页面入度等多个因素,相较以往的页面兴趣度算法更加科学。通过与用户的显性数据对比,也证实了算法的有效性。(3)将页面兴趣度模型与DS_MSA算法结合。将DS_MSA算法应用到Web日志挖掘中,把每个页面当作一个项目,则需要对每个页面的重要程度进行刻画。本文采用页面兴趣度来表现页面的重要程度。根据页面兴趣度确定页面的权重,并且根据页面兴趣度来限制DS_MSA算法挖掘过程中最小支持度的约束条件。针对重庆市农业农村信息网的日志数据,利用基于页面兴趣度的DS_MSA算法进行挖掘,得到用户的频繁访问模式,利用该模式对网站拓扑结构和内容进行优化和改进,本文对具体的优化策略也进行了简要的说明。本文的主要创新之处在于,改进了页面兴趣度的计算方法,并且采用双约束的方式限制挖掘模式的最小支持度,使挖掘结果更加贴近用户的兴趣,在一定程度上改善了原有挖掘算法的组合爆炸和稀有项目缺失的问题。利用挖掘结果,可以根据农业网站用户的特点,达到网站优化的目标。