论文部分内容阅读
随着互联网技术的快速发展,信息的结构也变得多样化。文本数据不但包含内容信息,也包含了共同作者关系(coauthors),相互引用关系(citations),地理位置和时间等附加信息,这样就构成了多通路文本网络,即文本和文本间存在多种链接结构。深入挖掘多通路文本网络,不但可以发现有意义的主题,还能建立可靠的预测模型,根据已知链接预测未知的链接。但实际上,不同的链接关系对主题形成的影响不同,比如经常有合作关系的两个作者对某些主题感兴趣,但是引用的文章可能来自交叉学科的完全不同的主题,两个博客的有很强的内容相似性,但是没有引用关系。因此如何平衡各种不同链接关系并且定量的刻画他们对主题分布的影响是一个非常有挑战的工作。本文提出了多通路主题模型(mutiplex topic models),利用因子图(factorgraph)将各种不同的链接通路融入到主题模型中,并提出了多通路置信传播算法(multiplex belief propagation)进行进行推理和参数估计,各种通路的权重可以通过传递的消息的一致性自动计算出来。实验结果表明,通过平衡各种通路的权重,模型在文本聚类和预测链接关系的方面有显著提高。协同过滤推荐算法是推荐系统中运用最成功的一种推荐技术。矩阵分解模型是协同过滤系统中广泛使用的推荐算法之一,大量研究表明,其在推荐速度和推荐精度方面均显著优于其他协同过滤算法。而基于矩阵分解的协同过滤推荐依靠的是学习用户和推荐项目的特征矩阵才能给出推荐。如果一个新的项目在评分矩阵中没有任何用户对它给出评价,或者是一个新用户在评分矩阵中没有对任何项目进行过评价,则无法学习该新用户和新项目的特征矩阵,那么该新用户和新项目就没有办法为其运用矩阵分解模型产生推荐。这就是协同过滤系统中广泛存在的冷启动问题。为了克服协同过滤算法的冷启动问题,本文在传统的概率矩阵分解算法上提出了基于双矩阵分解的推荐算法(dual matrix factorization,DMF)。该算法将概率矩阵分解(probabilistic matrix factorization,PMF)和作者主题模型(author-topic model,ATM)结合在一起对用户评分矩阵和用户单词矩阵同时分解。实验结果表明双矩阵分解算法不但在传统的协同过滤推荐上效果良好,而且在新项目的推荐上比经典的协同主题回归算法(collaborative topic regression,CTR)提高10%的recall准确率。