基于Web挖掘的Web个性化技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：Q_Q

【摘要】

：

相对于万维网(WWW)上的海量数据而言，个人阅读和理解信息的能力非常有限，人们很难获得他们所期望的知识，此即“信息爆炸”问题。为了解决这个问题，人们提出了很多技术来帮助用户

【作者】

：

丁二玉

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2004年期

【关键词】

：

web挖掘 web个性化 PUCI web使用挖掘主观兴趣度度量数据挖掘机器学习群体聚类算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

相对于万维网(WWW)上的海量数据而言，个人阅读和理解信息的能力非常有限，人们很难获得他们所期望的知识，此即“信息爆炸”问题。为了解决这个问题，人们提出了很多技术来帮助用户利用网上资源，web个性化即为其中之一。 web个性化技术是指不断学习站点的经验，改进站点的信息组织方式和提供方式，以更好地向用户提供信息的技术，是一项涉及到web、数据库、数据挖掘、机器学习、信息学、统计学等多个领域的交叉新技术。它的主要目的是更好地连接信息的提供者和信息的使用者，一方面帮助信息使用者尽快发现他们所需要的信息，另一方面也帮助信息提供者将信息更好地提供给信息使用者。因为巨量数据、稀疏数据和信息质量等问题，web挖掘技术在web个性化研究与实践当中得到了越来越广泛的应用，web使用挖掘技术在web个性化数据分析过程中越来越具有统治地位。本文首先从应用的角度综述了基于web挖掘的web个性化技术的发展过程，介绍了一些优秀的基于web挖掘的web个性化系统。然后，本文详细介绍了基于web挖掘的web个性化的处理过程，并从聚类分析、关联规则和序列模式等几个方向分析比较了web挖掘在web个性化领域应用的技术现状，从web内容挖掘技术融合和多特征使用两个方面描述了相应技术的发展趋势。 web个性化应用的web挖掘技术对web的巨量性、非结构性和有限性都有一定的考虑，但是它对web的动态性却考虑的较少。为此，基于对web个性化技术的研究，本文提出了一种考虑web动态性的基于web挖掘的web个性化工作框架PUCI(PersonalizationbasedonUsage，ContentandInterest)。PUCI是综合了信息的使用、内容和主观兴趣特性等三个方面特征的推荐系统。它由离线子系统和在线子系统两个部分组成，共包含有四个过程：数据采集、数据预处理、数据分析和在线推荐。 PUCI采用群体聚类算法作为处理的基础，融合信息的使用特征和内容特征，兼顾用户的浏览行为和行为语义，能够在处理旧有信息时对新加入信息也进行妥善考虑。此外PUCI还引入了信息的主观兴趣特性，力求在适应动态性、实现个性化的同时能够利用站点的动态性向用户提供更加新颖的信息。为了适应动态站点的频繁更新，PUCI在实现时采用了增量式的方法。它对基础数据、增量数据和淘汰数据三类数据进行了不同的处理，具体方法是：首次聚类时生成基础数据，然后增量式添加时生成增量数据、补充基础数据并(从基础数据中)剔除淘汰数据。本文最后还通过二个基于模拟数据的实验证明了PUCI推荐算法在处理web动态性时的有效性和PUCI增量式实现的可行性。

其他文献

射线跟踪法在室内WLAN环境的电波传播预测研究

　　本文在室内3-D环境中建立“基于镜像原理的射线跟踪算法”的分块模型，并进行了深入研究。建立了基于“镜像原理的3-D射线跟踪算法”的分块模型，考虑了有损介质的反射、透射

学位

室内无线通信传播预测镜像原理射线跟踪

数字化校园的总体框架与若干关键技术的研究

随着信息技术的不断进步，社会上的各行各业都在充分利用计算机应用系统的功能来帮助处理日常事务，提高工作效率。本文针对当前各大高校数字化校园的发展现状，以及在这个发展过程

学位

数字化校园身份认证总体框架校园网统一身份认证统一信息展示PKI公钥信息数据存储媒体LDAP目录

基于区间值的示例学习与区间规划的研究

现实世界中随机性与模糊性无处不在，无论在日常生活中还是在工程技术、生命科学、经济管理等领域。模糊集理论作为经典集合论的推广，可以用来表示人类知识中大量存在的模糊性概

学位

区间值示例学习FID3区间规划GA算法

基于着色Petri网的Internet电话业务冲突检测

Internet电话系统中的业务创建和配置比传统电话系统要复杂,业务种类的定制和增加也更为快捷和灵活。因此,在业务不断增加的过程中,业务冲突与业务发展之间的矛盾日益突出,并

学位

Internet电话系统着色Petri网业务冲突检测方法

个性化服务中用户兴趣模型的研究与设计

随着网络信息的高速增长,为了解决信息过载和信息迷航所带来的种种问题,个性化服务已经成为信息领域研究的热点之一。个性化服务针对不同的用户采取不同的服务策略,提供不同

学位

个性化服务用户兴趣模型特征提取文本聚类向量空间模型

课堂教学评价数学模型研究

　　本文论述了课堂教学评价的数学模型。　　首先，提出用试卷评价方法进行课堂教学评价指标体系的合理性进行分析，提出指标达标的难度、区分度、效度和信度。指标体系评价结果

学位

课堂教学评价数学模型信息熵粗糙集计算机技术

基于PCNN的织物疵点识别和检测的理论研究

脉冲耦合神经网络是新一代人工神经网络，具有较好的鲁棒性和自适应能力。本文应用PCNN模型，将神经元与图像像素一一对应，根据织物疵点区域纹理与正常织物纹理的灰度强度和分布差

学位

脉冲偶合神经网络织物疵点织物疵点识别织物疵点检测迭代次数

基于隐私保护的数据挖掘中若干问题的研究

数据挖掘面临着许多问题的挑战.其中,数据挖掘的个人隐私与信息安全问题尤其得到关注.如何在不暴露用户敏感信息的前提下进行数据挖掘,一直是人们感兴趣的课题.问题的解决对

学位

隐私保护数据挖掘随机响应关联规则信息安全

基于知识粗糙度和拓展属性约简的若干智能挖掘算法的研究

粗糙集理论是研究不完整、不确定问题的一种有效的方法，它具有不需要先验知识，忠实于原始数据的优点。在数据挖掘与数据库知识发现领域，粗糙集理论与方法已经得到了大量成功的应

学位

粗糙集属性约简卡方分布增量学习可辨识矩阵

基于粗糙集理论的属性约简算法研究及应用

数据库技术已经从原始的数据处理，发展到开发具有查询和事务处理能力的数据库管理系统。进一步的发展导致越来越需要有效的数据分析和数据理解工具。粗糙集理论正是一种处理不

学位

粗糙集属性约简粗糙逻辑决策规则极小决策算法天体光谱数据

基于Web挖掘的Web个性化技术研究

其他学术论文