基于异质信息的推荐算法若干问题研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:ztlzp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统是为了解决“信息过载”问题而产生的一种有效工具,随着推荐系统被广泛应用于新闻、音乐、社交平台和电子商务等领域以满足用户的个性化需求,以个性化推荐技术为代表的推荐算法受到了越来越多的关注。其中,协同过滤算法是应用最广泛的个性化推荐算法,由于传统的协同过滤算法只考虑用户的历史反馈数据进行推荐,面临着稀疏性和冷启动等问题。因此,越来越多的研究开始利用更多类型的数据构建混合式推荐算法,例如社交网络数据、文本数据、图像数据等,这些数据在结构上是多种多样的,在属性上是异质的,一般也被称为异质信息。异质信息主要包括结构化数据(例如,社交网络、知识图谱等)和非结构化数据(例如,文本、图片、视频等),这两种数据广泛存在于各种搜索引擎、社交应用、新闻阅读以及电商平台中,能够从多维度和多领域表示用户和物品的个性化属性,深入的挖掘这些异质信息能够帮助推荐算法更好的分析用户偏好,进而有效的解决推荐算法中的冷启动和稀疏性等问题,对于提高推荐算法的性能具有重要意义。基于此,本文主要从以下两个方面进行研究:1.基于结构化数据的推荐算法。结构化数据一般反映了用户-用户、物品-物品和用户-物品之间的复杂结构关系,例如电影、音乐、商品的类别信息、社交网络、知识图谱等,依据这些结构关系可以有效的缓解传统协同过滤算法的冷启动问题。例如,利用社交网络数据可以通过朋友的偏好估计用户的偏好,从而解决用户冷启动问题。现存的研究对这些结构化数据的挖掘仍然不够充分,因此需要使用更加先进的方法从结构化数据中深入挖掘隐含的复杂关系,并将其有效的整合到推荐模型框架中以更好的学习用户和物品的表示,进一步提升推荐算法的性能。2.基于非结构化数据的推荐算法。非结构化数据包括文本、图片以及视频等数据,这些数据中包含了丰富的用户偏好和物品属性信息,可以有效的帮助推荐算法改善稀疏性问题。现存的研究主要使用深度学习方法来从非结构化数据中学习用户和物品的隐含特征表示,但是这些深度学习模型仍然具有很大的改进和优化空间,如何设计有效的深度学习方法深入挖掘非结构化数据,以及如何更有效的通过这些数据构建用户和物品表示,是需要研究的主要问题。在以上两类数据中,目前对于社交网络(结构化数据)和评论文本(非结构化数据)的研究最为广泛。这两种数据普遍存在于各种电子商务和社交平台上,在缓解推荐算法的稀疏性和冷启动问题上具有重要的作用,在推荐系统领域一直备受欢迎。因此本文主要使用这两种异质信息分别构建推荐模型,提高模型在Top-N推荐和评分预测任务中的性能,并解决推荐算法中存在的冷启动和稀疏性等问题。目前基于这两种数据的推荐算法的研究中主要存在以下三个主要挑战:1.对于社交网络中的复杂关系缺少深入的研究。目前大多数基于社交网络的模型利用协同矩阵分解(Collaborative Matrix Factorization,CMF[1])等方法将从社交网络数据中挖掘的用户特征整合到协同过滤的推荐模型框架中,虽然强化了传统协同过滤算法对用户潜在特征的学习能力,但是对用户的信任矩阵进行分解不能深入的挖掘社交网络中用户之间的复杂关联,并且目前对于社交网络的稀疏性问题和噪声数据等问题没有进行深入的研究,因此限制了社交网络数据对于推荐算法性能的提升能力。2.不能充分利用评论文本数据缓解稀疏性问题。目前大多数基于评论文本的研究使用卷积神经网络(Convolutional Neural Network,CNN)和注意力机制(Attention Mechanism)等深度学习方法,从用户评论和物品评论中分别学习评论特征,将其直接作为用户和物品的特征表示以预测评分。这些模型通过评论文本构建用户和物品特征的方式过于单一,没有考虑用户、物品和评论三者特征之间的内在联系,导致模型过度依赖评论的语义特征,在评论数目稀疏的情况下,不能更好的利用评论文本缓解评分数据的稀疏性问题。3.缺少对评论特征的细粒度与个性化学习。目前大多数基于评论文本的深度学习模型在单词(Word)、评论(Review)和文档(Document)三个级别上挖掘评论的语义特征,其中对于文档和评论级别的研究较多,在单词级别对评论特征进行深入挖掘的研究仍然较少。此外,这些研究都只考虑了评论文本的语义特征来学习用户和物品特征表示,没有考虑基于用户和物品的个性化属性下的单词和评论特征表示,导致模型没有对评论文本进行细粒度的挖掘,不能更加精准的利用评论文本预测评分。针对以上三个问题,本章首先对基于社交网络数据的推荐算法进行研究,对社交网络数据进行了更深入的挖掘;之后从框架角度出发,对基于评论文本的推荐算法进行研究,旨在通过评论文本更好的构建用户和物品特征表示;最后从挖掘粒度角度出发,对如何更加细粒度的挖掘评论特征进行研究,本文的具体贡献如下:1.针对第一个问题,本文基于结构化数据–社交网络,提出了一个时序推荐模型——联合的个性化马尔科夫推荐模型(Joint Personalized Markov Chains-Based Recommendation Model,JPMC)。该模型针对社交网络的稀疏性问题和噪声数据等问题,首先使用网络表征方法(Network Representation Learning,NRL)对社交网络进行深入的挖掘,得到社交感知的用户特征表示;之后考虑了社交网络对用户长期和短期偏好的影响,并通过联合的学习框架更好的解决了隐反馈推荐中的用户冷启动问题,提高了Top-N推荐的准确率。2.针对第二个问题,本文基于非结构化数据–评论文本,设计了一个融合评论和评分的交互式推荐模型——基于属性图卷积网络的推荐模型(Attributed Graph Convolutional Network-Based Recommendation Model,AGCR)。该模型针对如何通过评论更好的构建用户和物品特征表示的问题,将评论和历史评分数据作为用户和物品的交互属性,并基于图卷积网络方法(Graph Convolutional Network,GCN)将二者有效的整合到用户和物品特征表示中,模型能够在评论数目稀疏的情况下通过对多种交互关系的学习更好的构建用户和物品特征表示,更有效的缓解评分数据的稀疏性问题,提高了评分预测的准确性。3.针对第三个问题,本文基于非结构化数据–评论文本,设计了一个基于个性化评论的细粒度推荐模型——个性化用户满意度感知的推荐模型(User-Specific Satisfaction-Aware Recommendation Model,USR)。该模型首先提出了一个新的概念——个性化用户满意度,即不同用户使用相同单词或者相似评论表达不同的满意程度,之后在单词和评论级别分别学习基于个性化用户满意度的评论特征表示,模型不仅考虑了评论的语义特征表示,还基于用户满意度学习了个性化的评论特征,更加细粒度的从评论中挖掘隐含的用户偏好和物品属性,进一步改善了评分预测任务的准确性。
其他文献
矿业是国民经济的重要组成部分,露天采矿占整个矿山开采业的比重很大。矿用大型电铲是露天矿山剥离和采掘矿石的主要设备,其工作环境恶略,再加上操作员长时间工作,使得电铲事故率较高。其中,与行走装置有关的事故占到1/3左右,由此可见行走装置对于大型电铲性能的可靠性具有重要影响。随着矿产装备智能化水平的不断提升,无人电铲成为新的解决方案。其中,自主行走是无人电铲一项关键功能,该过程存在机电耦合、离散介质系统
5G/B5G无线网络不同场景中新业务骈兴错出,需要通信系统提供定制化的可靠性保障。时延约束下的可靠性,即网络时延低于业务时延阈值的概率,是衡量网络性能的重要指标,可指导网络控制,直接影响用户体验。统计型时延可靠性保障是5G/B5G网络走向成熟必须直面的问题。合理的带宽分配是可靠性保障的充要条件。受毫秒级时延的约束,实现业务严苛的可靠性保障需要网络的大带宽供应。精确的带宽需求评估和抽象决定了资源的高
近年来,随着科学技术的发展,农业进入了4.0时代,国家也出台了一系列文件来促进农业向智能化、精准化方向快速前进。但农业数据采集成本高、决策模型不足、智能化程度低等原因,造成了农业生产过程中土地产出率、资源利用率和劳动生产率较低等问题。本研究针对玉米精准施肥决策中土壤采样成本高、土壤氮磷钾含量获取难、模型长期预测精度降低的问题和玉米施药决策中没有玉米病害发生程度识别模型的问题,构建了基于改进BP神经
碳基共晶材料是指由两个或两个以上碳基分子构成的共晶材料,这类材料不仅可以继承单组分的优异物理化学性质,还可以因为分子间相互作用而产生新的性质,因此受到人们的广泛关注。作为一种重要的热力学参量,高压可以有效改变分子间相互作用,使共晶材料产生新的结构和性质,为创造新型功能材料开辟一条新的途径。目前,在碳基共晶材料的高压研究方面已经取得了一系列重要进展,具有新奇结构/性质的新物质已被设计合成出来,如从富
近年来,以“双碳”目标为代表的节能减排政策为新能源工程机械产业带来了新的机遇和挑战,工程机械领域电动化趋势发展强劲。装载机是工程机械的重要机型,作业范围广阔、市场保有量大。电动装载机避免了传统燃油装载机使用过程中的碳排放和尾气污染问题,从战略发展,技术储备和供应市场等多方面看,电动装载机关键技术的研究具有重要理论意义和工程应用价值。装载机作业过程中环境恶劣、路面复杂、铲掘和装载前后负载变化大、前后
汽车产品在市场竞争中核心技术要素主要包含可靠性、稳态工况下的性能、瞬态工况下的动态性能,以及批量生产过程中的上述性能的产品一致性、使用一段时间后上述性能的衰减。经过几十年发展,我国已经完全掌握了可靠性和稳态性能的开发技术,自主汽车品牌的相关性能指标已经达到了国际一流水平。我国自主品牌汽车急需提升产品的动态性能及其量产一致性和性能持久性。目前,产品瞬态工况的动态性能只能通过实车场地试验主观评价进行开
传统半导体材料为光电领域的发展做出了卓越贡献,但随着后摩尔时代的到来,对光电信息等系统提出了更高的需求,光电子器件也朝着小体积、大带宽、低功耗、集成化、智能化等方向发展,促使科研人员不断探寻新材料、新结构、新机理。近年来,新型光电材料如钙钛矿、过渡金属硫化物、超结构材料等在光电领域展现出巨大的应用潜力,并不断刷新各类光电器件的性能指标,但是针对这些新材料物理特性背后的作用机理尚未充分挖掘,尤其是对
利用传统深海探测技术进行海底多金属硫化物勘查不仅难度大且成本高,这导致已发现的热液区与采集到的与热液成矿相关数据较少。为缩小勘探范围从而提高找矿效率,在实地勘探前,我们需要一种既适用于小样本,又能使特征变量充分体现找矿信息的成矿定量预测方法。如今一些传统的统计学方法已应用于海底多金属硫化物成矿预测,但这些方法无法满足上述要求。机器学习算法具有可以同时将二分类、多分类和连续数据作为特征变量的优势,而
随着自动驾驶和网联技术的不断发展,未来很长一段时间内会出现智能网联车辆(Connected Autonomous Vehicle,CAV)、自动驾驶车辆(Automated Vehicle,AV)和人工驾驶车辆(Human-driven Vehicle,HDV)混合行驶的情况。为研究混行交通流中不同类型车辆的跟驰行为,混行车辆跟驰建模成为了微观交通流仿真研究的热点问题之一。然而,目前大部分研究不能
随着经济社会高速发展,社会矛盾运动获得了两种新特质,即“跨界与互联”、“风险与突发”,这两种新特质推动着行政管理实践中管理模式与行政情景的扩展,并进一步促使“跨部门协同”作为一种卓具成效的应急管理机制被广泛适用于各领域的应急实践之中。尤其在突发事件频发的当下,应急管理领域的跨部门协同(后文简称“应急协同”)几乎每天都在上演,并不断在更深的治理层次、更广的治理领域以及更完整的治理过程中完成自身的机能