论文部分内容阅读
推荐系统是为了解决“信息过载”问题而产生的一种有效工具,随着推荐系统被广泛应用于新闻、音乐、社交平台和电子商务等领域以满足用户的个性化需求,以个性化推荐技术为代表的推荐算法受到了越来越多的关注。其中,协同过滤算法是应用最广泛的个性化推荐算法,由于传统的协同过滤算法只考虑用户的历史反馈数据进行推荐,面临着稀疏性和冷启动等问题。因此,越来越多的研究开始利用更多类型的数据构建混合式推荐算法,例如社交网络数据、文本数据、图像数据等,这些数据在结构上是多种多样的,在属性上是异质的,一般也被称为异质信息。异质信息主要包括结构化数据(例如,社交网络、知识图谱等)和非结构化数据(例如,文本、图片、视频等),这两种数据广泛存在于各种搜索引擎、社交应用、新闻阅读以及电商平台中,能够从多维度和多领域表示用户和物品的个性化属性,深入的挖掘这些异质信息能够帮助推荐算法更好的分析用户偏好,进而有效的解决推荐算法中的冷启动和稀疏性等问题,对于提高推荐算法的性能具有重要意义。基于此,本文主要从以下两个方面进行研究:1.基于结构化数据的推荐算法。结构化数据一般反映了用户-用户、物品-物品和用户-物品之间的复杂结构关系,例如电影、音乐、商品的类别信息、社交网络、知识图谱等,依据这些结构关系可以有效的缓解传统协同过滤算法的冷启动问题。例如,利用社交网络数据可以通过朋友的偏好估计用户的偏好,从而解决用户冷启动问题。现存的研究对这些结构化数据的挖掘仍然不够充分,因此需要使用更加先进的方法从结构化数据中深入挖掘隐含的复杂关系,并将其有效的整合到推荐模型框架中以更好的学习用户和物品的表示,进一步提升推荐算法的性能。2.基于非结构化数据的推荐算法。非结构化数据包括文本、图片以及视频等数据,这些数据中包含了丰富的用户偏好和物品属性信息,可以有效的帮助推荐算法改善稀疏性问题。现存的研究主要使用深度学习方法来从非结构化数据中学习用户和物品的隐含特征表示,但是这些深度学习模型仍然具有很大的改进和优化空间,如何设计有效的深度学习方法深入挖掘非结构化数据,以及如何更有效的通过这些数据构建用户和物品表示,是需要研究的主要问题。在以上两类数据中,目前对于社交网络(结构化数据)和评论文本(非结构化数据)的研究最为广泛。这两种数据普遍存在于各种电子商务和社交平台上,在缓解推荐算法的稀疏性和冷启动问题上具有重要的作用,在推荐系统领域一直备受欢迎。因此本文主要使用这两种异质信息分别构建推荐模型,提高模型在Top-N推荐和评分预测任务中的性能,并解决推荐算法中存在的冷启动和稀疏性等问题。目前基于这两种数据的推荐算法的研究中主要存在以下三个主要挑战:1.对于社交网络中的复杂关系缺少深入的研究。目前大多数基于社交网络的模型利用协同矩阵分解(Collaborative Matrix Factorization,CMF[1])等方法将从社交网络数据中挖掘的用户特征整合到协同过滤的推荐模型框架中,虽然强化了传统协同过滤算法对用户潜在特征的学习能力,但是对用户的信任矩阵进行分解不能深入的挖掘社交网络中用户之间的复杂关联,并且目前对于社交网络的稀疏性问题和噪声数据等问题没有进行深入的研究,因此限制了社交网络数据对于推荐算法性能的提升能力。2.不能充分利用评论文本数据缓解稀疏性问题。目前大多数基于评论文本的研究使用卷积神经网络(Convolutional Neural Network,CNN)和注意力机制(Attention Mechanism)等深度学习方法,从用户评论和物品评论中分别学习评论特征,将其直接作为用户和物品的特征表示以预测评分。这些模型通过评论文本构建用户和物品特征的方式过于单一,没有考虑用户、物品和评论三者特征之间的内在联系,导致模型过度依赖评论的语义特征,在评论数目稀疏的情况下,不能更好的利用评论文本缓解评分数据的稀疏性问题。3.缺少对评论特征的细粒度与个性化学习。目前大多数基于评论文本的深度学习模型在单词(Word)、评论(Review)和文档(Document)三个级别上挖掘评论的语义特征,其中对于文档和评论级别的研究较多,在单词级别对评论特征进行深入挖掘的研究仍然较少。此外,这些研究都只考虑了评论文本的语义特征来学习用户和物品特征表示,没有考虑基于用户和物品的个性化属性下的单词和评论特征表示,导致模型没有对评论文本进行细粒度的挖掘,不能更加精准的利用评论文本预测评分。针对以上三个问题,本章首先对基于社交网络数据的推荐算法进行研究,对社交网络数据进行了更深入的挖掘;之后从框架角度出发,对基于评论文本的推荐算法进行研究,旨在通过评论文本更好的构建用户和物品特征表示;最后从挖掘粒度角度出发,对如何更加细粒度的挖掘评论特征进行研究,本文的具体贡献如下:1.针对第一个问题,本文基于结构化数据–社交网络,提出了一个时序推荐模型——联合的个性化马尔科夫推荐模型(Joint Personalized Markov Chains-Based Recommendation Model,JPMC)。该模型针对社交网络的稀疏性问题和噪声数据等问题,首先使用网络表征方法(Network Representation Learning,NRL)对社交网络进行深入的挖掘,得到社交感知的用户特征表示;之后考虑了社交网络对用户长期和短期偏好的影响,并通过联合的学习框架更好的解决了隐反馈推荐中的用户冷启动问题,提高了Top-N推荐的准确率。2.针对第二个问题,本文基于非结构化数据–评论文本,设计了一个融合评论和评分的交互式推荐模型——基于属性图卷积网络的推荐模型(Attributed Graph Convolutional Network-Based Recommendation Model,AGCR)。该模型针对如何通过评论更好的构建用户和物品特征表示的问题,将评论和历史评分数据作为用户和物品的交互属性,并基于图卷积网络方法(Graph Convolutional Network,GCN)将二者有效的整合到用户和物品特征表示中,模型能够在评论数目稀疏的情况下通过对多种交互关系的学习更好的构建用户和物品特征表示,更有效的缓解评分数据的稀疏性问题,提高了评分预测的准确性。3.针对第三个问题,本文基于非结构化数据–评论文本,设计了一个基于个性化评论的细粒度推荐模型——个性化用户满意度感知的推荐模型(User-Specific Satisfaction-Aware Recommendation Model,USR)。该模型首先提出了一个新的概念——个性化用户满意度,即不同用户使用相同单词或者相似评论表达不同的满意程度,之后在单词和评论级别分别学习基于个性化用户满意度的评论特征表示,模型不仅考虑了评论的语义特征表示,还基于用户满意度学习了个性化的评论特征,更加细粒度的从评论中挖掘隐含的用户偏好和物品属性,进一步改善了评分预测任务的准确性。