论文部分内容阅读
相对于万维网(WWW)上的海量数据而言,个人阅读和理解信息的能力非常有限,人们很难获得他们所期望的知识,此即“信息爆炸”问题。为了解决这个问题,人们提出了很多技术来帮助用户利用网上资源,web个性化即为其中之一。
web个性化技术是指不断学习站点的经验,改进站点的信息组织方式和提供方式,以更好地向用户提供信息的技术,是一项涉及到web、数据库、数据挖掘、机器学习、信息学、统计学等多个领域的交叉新技术。它的主要目的是更好地连接信息的提供者和信息的使用者,一方面帮助信息使用者尽快发现他们所需要的信息,另一方面也帮助信息提供者将信息更好地提供给信息使用者。
因为巨量数据、稀疏数据和信息质量等问题,web挖掘技术在web个性化研究与实践当中得到了越来越广泛的应用,web使用挖掘技术在web个性化数据分析过程中越来越具有统治地位。本文首先从应用的角度综述了基于web挖掘的web个性化技术的发展过程,介绍了一些优秀的基于web挖掘的web个性化系统。然后,本文详细介绍了基于web挖掘的web个性化的处理过程,并从聚类分析、关联规则和序列模式等几个方向分析比较了web挖掘在web个性化领域应用的技术现状,从web内容挖掘技术融合和多特征使用两个方面描述了相应技术的发展趋势。
web个性化应用的web挖掘技术对web的巨量性、非结构性和有限性都有一定的考虑,但是它对web的动态性却考虑的较少。为此,基于对web个性化技术的研究,本文提出了一种考虑web动态性的基于web挖掘的web个性化工作框架PUCI(PersonalizationbasedonUsage,ContentandInterest)。PUCI是综合了信息的使用、内容和主观兴趣特性等三个方面特征的推荐系统。它由离线子系统和在线子系统两个部分组成,共包含有四个过程:数据采集、数据预处理、数据分析和在线推荐。
PUCI采用群体聚类算法作为处理的基础,融合信息的使用特征和内容特征,兼顾用户的浏览行为和行为语义,能够在处理旧有信息时对新加入信息也进行妥善考虑。此外PUCI还引入了信息的主观兴趣特性,力求在适应动态性、实现个性化的同时能够利用站点的动态性向用户提供更加新颖的信息。
为了适应动态站点的频繁更新,PUCI在实现时采用了增量式的方法。它对基础数据、增量数据和淘汰数据三类数据进行了不同的处理,具体方法是:首次聚类时生成基础数据,然后增量式添加时生成增量数据、补充基础数据并(从基础数据中)剔除淘汰数据。
本文最后还通过二个基于模拟数据的实验证明了PUCI推荐算法在处理web动态性时的有效性和PUCI增量式实现的可行性。