多通路主题模型和双矩阵分解推荐算法

来源 :苏州大学 | 被引量 : 0次 | 上传用户:xinxinxiangrong1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,信息的结构也变得多样化。文本数据不但包含内容信息,也包含了共同作者关系(coauthors),相互引用关系(citations),地理位置和时间等附加信息,这样就构成了多通路文本网络,即文本和文本间存在多种链接结构。深入挖掘多通路文本网络,不但可以发现有意义的主题,还能建立可靠的预测模型,根据已知链接预测未知的链接。但实际上,不同的链接关系对主题形成的影响不同,比如经常有合作关系的两个作者对某些主题感兴趣,但是引用的文章可能来自交叉学科的完全不同的主题,两个博客的有很强的内容相似性,但是没有引用关系。因此如何平衡各种不同链接关系并且定量的刻画他们对主题分布的影响是一个非常有挑战的工作。本文提出了多通路主题模型(mutiplex topic models),利用因子图(factorgraph)将各种不同的链接通路融入到主题模型中,并提出了多通路置信传播算法(multiplex belief propagation)进行进行推理和参数估计,各种通路的权重可以通过传递的消息的一致性自动计算出来。实验结果表明,通过平衡各种通路的权重,模型在文本聚类和预测链接关系的方面有显著提高。协同过滤推荐算法是推荐系统中运用最成功的一种推荐技术。矩阵分解模型是协同过滤系统中广泛使用的推荐算法之一,大量研究表明,其在推荐速度和推荐精度方面均显著优于其他协同过滤算法。而基于矩阵分解的协同过滤推荐依靠的是学习用户和推荐项目的特征矩阵才能给出推荐。如果一个新的项目在评分矩阵中没有任何用户对它给出评价,或者是一个新用户在评分矩阵中没有对任何项目进行过评价,则无法学习该新用户和新项目的特征矩阵,那么该新用户和新项目就没有办法为其运用矩阵分解模型产生推荐。这就是协同过滤系统中广泛存在的冷启动问题。为了克服协同过滤算法的冷启动问题,本文在传统的概率矩阵分解算法上提出了基于双矩阵分解的推荐算法(dual matrix factorization,DMF)。该算法将概率矩阵分解(probabilistic matrix factorization,PMF)和作者主题模型(author-topic model,ATM)结合在一起对用户评分矩阵和用户单词矩阵同时分解。实验结果表明双矩阵分解算法不但在传统的协同过滤推荐上效果良好,而且在新项目的推荐上比经典的协同主题回归算法(collaborative topic regression,CTR)提高10%的recall准确率。
其他文献
作为网络百科全书的代表,维基百科已成为广大用户获取知识的资源库,所有维基百科条目按类别组织而成,整个维基百科类别系统构成了一个具有层次结构关系的分类体系,用户可以根
现场直播中为了满足电视观众兴趣点差异化的欣赏需求,本文提出了一种多场景电视的概念,同时提供多个现场场景的视频,使观众可以根据自己的兴趣从中自主选择收看一个到多个场
网络流量分析与异常检测是互联测量的重要应用之一。网络流量进行深入的分析对网络性能评估、网络安全以及保证网络有效的运行有着重要的意义。  目前,IPv6协议作为下一代互
线性代数委托计算有着重要的理论和应用价值。随着计算机技术朝着多极化方向发展,计算资源分布越来越不均匀,而委托计算技术可以使得资源分配更合理、更灵活,因此对委托计算进行
输送带的应用领域随着工业化推进及传动技术的发展而不断扩大,输送带的安全寿命使用期是衡量输送机运转效率及安全运输的重要指标。输送带受材质因素、环境因素及物料因素,运输
近年来,实时监控系统、物联网、Internet传输信息等环境产生了大量数据流,这类数据具有快速到达、海量潜在无限和概念漂移的特点。这些特点使得无法使  用传统的数据分类方法
本体是共享概念模型的形式化规范的说明,目前已经被成功地应用到语义网、人工智能和知识工程等领域。本体是语义网的核心基础,然而本体创建和使用具有主观性和自治性,从而导致了
无线传感器网络(WSN)综合了计算机技术、通信技术以及传感器技术,被广泛用于环境监测、军事防御等领域,是当今嵌入式领域的研究热点。WSN应用开发设计涉及的相关领域较多,包括射频
本文主要研究了一种新的生物特征识别技术——手背静脉识别,包括近红外手背静脉图像采集、图像预处理、基于自适应滤波的手背静脉图像增强算法、基于动态全局阈值的手背静脉分
互联网近年来呈现蓬勃发展趋势,网上的信息量每日呈爆炸式的增长。信息海量增长的同时,百度,谷歌等通用搜索引擎已经无法满足人们对特定领域的搜索需求。为此,针对特定领域的垂直