论文部分内容阅读
随着Internet的迅速发展,各种信息以指数级的速度增长,类型也越来越多。如何有效地解决信息过载和信息迷失带来的种种问题,如何满足各种用户不同的个性化需求等,是研究人员面临的新课题,个性化服务已经成为当前信息服务领域的研究热点之一。个性化服务的目的是为了帮助人们从海量的信息集合中准确地获取自己所需要的信息。在过去的个性化服务研究中,研究者把研究的重心放在个性化服务的具体技术上,如推荐技术、信息检索技术、用户聚类技术等,而忽略了用户模型在个性化服务中的重要性。好的用户模型可以有效地捕捉用户变化着的兴趣。只有捕捉到用户兴趣才能有效地实现个性化服务。因此,有必要单独研究如何构建好的用户模型。在传统用户建模技术上,本文提出了一种新的用户兴趣动态更新模型,实验表明该模型能较好地捕捉到用户的真实兴趣。
本文主要完成了以下几个方面的工作:
①本文提出一种新的兴趣特征词的权值计算方法。兴趣特征词的权值用来量化兴趣特征词对用户兴趣的影响程度,因此权值计算的准确度直接影响到文本分类的准确度,进而影响到用户兴趣描述的准确性。实验表明,采用新的权值计算方法,可使文本分类的准确度、召回率和F1值均提高了1到2个百分点。
②在分析传统用户兴趣模型的基础上,提出了一种将用户浏览行为和浏览内容相结合的新的用户兴趣模型。首先根据用户浏览行为计算出用户浏览兴趣度,然后用构建好的多类SVM文本分类器进行分类。该模型既能避免仅用浏览行为来描述用户兴趣的片面性,又能够有效克服传统的基于内容的用户模型不能刻画用户行为特征的不足。
③为了更好的实现用户模型的更新,除了对特征词典、兴趣特征词库更新外,本文在遗忘因子的基础上明确给出了新的长、短期兴趣更新的新算法,包括短期兴趣更新算法、短期兴趣向长期兴趣转化、长期兴趣更新算法。实验表明,该算法在很大程度上解决了长、短期兴趣识别和转化难的问题,能准确捕捉用户长、短期兴趣的变化。
④采用www.sohu.com网站的标准分类页面作为实验语料,完成了以下实验:新的权值计算方法的性能检验实验、B-SVM文本分类性能检验实验、新的动态更新算法性能检验实验。结果表明,该模型能够准确地捕捉到用户兴趣和兴趣的变动。