论文部分内容阅读
目前,推荐系统在各种资源社区以及电子商务网站得以应用,其中最主流的推荐方法便是协同过滤。但迄今为止,没有任何方法能很好的适应任何的数据集合。针对特定的数据集,人们往往根据已有的方法设计出不同的版本或者混合各种已有的方法来作为推荐引擎的核心。本文针对Maze资源和用户行为的特点,设计出一个基于混合方法的资源推荐系统,以解决在缺乏用户-资源评分体系与资源描述信息情况下的资源推荐问题。
本文首先针对推荐系统中常见的冷启动问题,利用文本聚类方法做出初步推荐。其中主要涉及到短文本资源聚类中的相似性评价问题,以及聚类的等价性和效率问题。对于相似性评价问题,首先利用词的全局和局部统计概率模型去描述每一个资源,然后利用调整离散余弦夹角公式去计算资源名称的相似度。为解决增量聚类的的等价性和效率问题,我们采用类词索引的方法,并使用一种新的“聚类”概念用以支持类的分裂和资源的多重类属性。
为了弥补聚类推荐的不足,提高推荐的准确度和丰富度,本文提出了根据用户资源下载关系有向图来预测用户可能感兴趣的资源的方法。此方法继承了协同过滤的思想,但有别于通用的协同过滤方法,可以利用文件下载的先后顺序发现文件之间存在的潜在层次关系,从而减少无意思的推荐,增加有意义的推荐。提高用户对于所推荐资源的惊喜度。
最后,针对系统数据集的丰富程度,以及考虑用户兴趣模型,本文论述了如何把几种推荐方式相结合的方法。