论文部分内容阅读
随着互联网技术的迅速发展,Web信息呈爆炸式增长,在海量的数据中,如何快捷高效的搜索获取需要或者感兴趣的信息逐渐成为人们关注的焦点。Web个性化服务在一定程度上解决了信息高速增长与用户获取信息手段相对简单之间的矛盾。Web信息服务商通过不断提高个性化服务质量来更好地为吸引用户,获取用户的认同感,提高用户的满意度。用户兴趣建模是个性化服务的核心和关键,信息检索、数据挖掘、电子商务以及个性化推荐领域都试图考虑使用用户兴趣模型来提高信息服务的质量。传统的用户兴趣模型大都基于VSM(Vector Space Model,向量空间模型),使用关键词来表示用户的兴趣,既没有考虑关键词之间的粒度层次关系,也没有利用领域知识来推断用户感兴趣的具体概念或者主题,使得用户兴趣模型难以准确合理的表示用户的兴趣。针对传统建模方法存在的问题,本文以个性化Web新闻服务为例,对层次型用户兴趣建模展开研究,提出了一种基于图划分的中文词语层次聚类算法GCPHC(Graph Partition-based Chinese Phrases Hierarchical ClusteringAlgorithm),将用户的兴趣组织为树形层次结构,并基于HowNet和ODP领域知识,给出最大匹配映射算法HNM3(HowNet-based Maximum MatchingMapping)来定位用户的兴趣主题,最终构建带有主题标签的层次用户兴趣模型。本文主要工作如下:(1)在日益需要更加智能化的Web个性化服务的背景下,本文使用分裂式层次聚类算法对用户感兴趣的Web内容构建了层次型用户兴趣模型,为Web个性化服务提供帮助。(2)针对识别用户兴趣模型中具体兴趣主题的问题,文本使用HowNet知识库和ODP开放分类目录,将层次模型节点映射到ODP目录主题上,提高了用户模型的有效性。(3)通过相关实验,确定了构建用户模型过程中所需要的相关函数,数据规模和词性特征,为层次型用户兴趣模型在Web个性化服务领域的应用提供了依据。