论文部分内容阅读
近年来,随着Internet的快速普及,人们生活方式和认知世界的途径发生了翻天覆地的变化。由于互联网规模和覆盖面的迅速增长,人们主动或被动获取的信息也越来越多,同时,人们想从互联网上快速获取自己感兴趣的信息也变得越来越困难。面对这样的挑战,各种信息过滤和筛选技术应运而生,本世纪初由研究人员提出的协同过滤推荐系统作为一种个性化的信息过滤手段,逐渐受到人们的重视并在各个领域被广泛应用。
本文的研究是基于一个视频展示和搜索平台,尝试为视频平台的用户提供高效的、个性化的推荐算法。
首先,本文对应用最为广泛的协同过滤推荐算法进行了充分的调研,并比较基于内存的协同过滤算法和基于模型的协同过滤算法的不同及其各自的优缺点。
其次,本文分析了现阶段互联网多媒体信息尤其是视频信息的特点,并对协同过滤技术框架中现有的三种相似性度量方法进行了简单的比较,发现其忽略了用户及项目的背景信息,并在面对高稀疏度数据时效果并不理想。针对这样的问题,考虑到多媒体信息的特点,本文提出了一种基于用户或项目分类信息的,多级概化的相似性度量方法框架,并通过在Movielens数据集上的实验,证明了该算法在面对高稀疏度的数据时,能够通过多级信息概化,有效的提高协同过滤算法的效果。
第三,针对推荐系统结果的巴尔干化效应,以及传统KNN算法在近邻集选择上的弊端,本文设计了一个自适应的近邻集选择框架,并通过对基于用户和基于项目的协同过滤算法预测结果进行自适应的加权平均,较为有效的提高了算法的预测结果。
最后,针对视频信息的特点,以及用户在视频分享网站上的行为特征,本文提出了一个以用户停留时间这一隐式评价信息为基准的矩阵填充方法。并在此基础上,搭建了以改进的协同过滤技术为核心的基于《世纪大讲堂》视频信息的推荐平台。