基于图神经网络的个性化推荐

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:grand1008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和电子商务的发展,互联网已经成为国民日常生活不可或缺的一部分,对国民的生活质量产生极大影响。然而,互联网上的海量信息在丰富人们的生活、满足国民日益增长的物质和精神需求的同时,也对用户个性化筛选信息、平台精准投放信息带来了巨大挑战。个性化推荐系统作为大数据时代缓解“信息过载”问题的有效工具,已经成为了支撑互联网智能、部署实现高端高效智能经济的关键技术之一。个性化推荐的核心之一是发掘用户意图。传统的启发式方法和基于矩阵分解的方法只能建模浅层的、隐式的用户意图,难以显式地捕捉更深层次的用户意图。由于推荐场景下的大部分数据本质上都是图结构的(如用户-物品的交互数据、用户的社交网络、物品的知识图谱等),以及图神经网络在建模高阶复杂关系上展现出的优势,基于图神经网络的个性化推荐受到了研究人员的广泛关注。然而,现有工作存在诸多不足之处。例如,在模型设计层面,现有的图推荐算法对图数据的建模能力较弱,一方面难以充分发挥未标记的交互数据空间的潜能,另一方面无法同时捕捉多源异构数据中的多种交互效应;在优化目标层面,现有的工作往往采用经典的损失函数对模型参数进行优化,缺少对图推荐算法的适配和更深入的理论分析等。针对这些挑战,本论文从模型设计层面和优化目标层面展开研究。具体而言,在模型设计层面,本论文创新性地提出从内源性图数据建模和外源性图数据建模两个方面分别对图推荐算法进行增强;在优化目标层面,本论文对图推荐算法的优化目标进行深入的理论分析。本论文的主要贡献和创新点如下:(一)基于内源性图数据建模的推荐算法:针对现有的采用有监督学习范式的图推荐算法中存在的监督信号稀疏、数据分布偏态和交互数据带噪等问题,本论文研究了在用户-物品二部图上进行自监督学习,通过探索未标记的交互数据空间来解决上述问题。其思想是设置一个辅助的自监督学习任务来补充经典的有监督推荐任务。具体而言,本论文设计了五种数据增广操作来生成节点的多个视图,并最大化同一节点的不同视图之间的一致性。进一步地,本论文从理论上证明了所提出的方法具备自动挖掘难负样本的优势。在公开数据集上的实验表明,所提出的方法在经典的推荐任务和长尾推荐任务中均显著优于主流方法,并且其训练效率和抗噪声能力也有明显提升。(二)基于外源性图数据建模的推荐算法:针对推荐系统中涉及的多源异构数据以及现有的场景感知图推荐方法无法同时捕捉多种交互效应等方面的不足,本论文首先提出利用图结构来组织用户、物品和情境特征,生成带属性的交互二部图,其中情境特征被建模为二部图中相应连边的特征。然后,设计了一个新的通用推荐系统框架,借助图卷积层模块和解码器模块来建模高阶协同效应和特征交叉模式,从而生成用户在特点情境下交互目标物品的评分预测。在真实数据集上的实验表明,所提出的方法相比于现有方法具有显著的性能提升,同时有望缓解物品冷启动问题。(三)面向图推荐方法的优化目标:针对现有优化目标函数存在的与推荐目标不一致、放大流行度偏差、训练效率不高等问题,本论文从噪声对比估计(Noise Contrastive Estimation,NCE)的角度重新定义了采样软最大化(Sampled Softmax,SSM)损失函数,并从理论上证明了 SSM损失函数具备三点优势:(a)缓解流行度偏差,(b)自动挖掘难负样本,以及(c)最大化折损累计增益(Discounted Cumulative Gain,DCG)指标。此外,本论文还发现了 SSM损失函数在学习表示向量(Representation)的模长(Magnitude)方面存在潜在不足,并证明了图卷积网络能够通过自适应调整表示向量模长来弥补SSM损失函数的不足,起到相互促进的效果。在公开数据集上的实验表明,与图推荐算法结合,SSM损失函数在经典和长尾两种推荐任务中均能取得优异的推荐精准度,同时其训练效率也显著优于现有方法。
其他文献
量子纠缠是量子世界最显著的特征,最早以“鬼魅的超距作用”进入人们的视线,引起了关于“实在性”、“局域性”和“量子力学完备性”的激烈争论,而后随着Bell不等式的提出,量子力学的完备性才得以进一步验证。经过全世界物理工作者近百年的努力,量子纠缠的研究内容从理论到实验愈发丰富,使得量子纠缠成为量子计算、量子通信、量子精密测量、量子模拟等量子信息学应用的核心。然而,量子纠缠仍然存在着很多重要却未解决的问
台风特指生成于西北太平洋热带洋面、中心附近最大持续风速大于64kts的热带气旋(TC)。台风-海洋相互作用在近几十年来越来越受到关注。一方面,台风会对其路径附近的上层海洋生态环境产生重要影响,包括海洋温盐变化,海洋叶绿素浓度增长等等;其中,海表热通量、垂直混合夹卷、上升流导致的冷尾流现象最为显著。另一方面,海洋环境包括海表温度、海洋涡旋等要素是影响台风生成和发展的关键因素。过去几十年来,热带气旋强
近年来,为了解决城市化带来的日益严重的城市道路交通拥堵问题,地铁系统在我国各大城市得到了广泛建设。然而,地铁系统结构复杂、地下空间狭长且封闭、人员密度大,导致地铁火灾可能会发展成重大伤亡事故。目前,前人关于地铁火灾的研究大都是针对隧道火灾开展的。而在实际情况中,地铁列车可能因火灾事故导致动力系统故障而停靠在区间隧道内,乘客通过一侧开启的车门和纵向疏散平台向安全区疏散。此时,两端开口区间隧道同单侧多
俯冲带镁铁质-长英质岩浆岩通常记录了俯冲地壳物质的再循环和再造,是研究俯冲带壳幔相互作用和构造演化的重要载体。祁连造山带经历了早古生代柴达木地块-祁连地块-阿拉善地块的聚合,记录了从大洋俯冲到大陆碰撞的一系列过程,是研究俯冲带物质循环和壳幔相互作用的理想区域。祁连地块出露大量不同岩性的早古生代弧岩浆岩,为识别不同性质俯冲地壳物质再造和再循环以及恢复造山带构造演化历史提供了很好的研究对象。本学位论文
在森林火灾和建筑火灾的可燃物中,生物质占有很大的比重。因而,生物质燃烧在火灾领域受到了广泛的关注。要从本质上认识、预测和预防燃烧,就需要对其化学反应机理展开详细的研究。在火灾蔓延过程中,未燃区受到加热,生物质发生热解。之后,热解释放的可燃气体发生氧化,当OH自由基的浓度积累到一定程度时,发生点火现象。生物质的热解和点火在燃烧过程中持续存在。生物质主要由半纤维素、纤维素和木质素三大组分组成。综纤维素
火旋风是一种典型的森林和城市极端火行为。它是由浮力火羽流与周围旋转流场耦合作用诱发的旋转扩散火焰。与普通浮力火焰相比,火旋风具有更大的燃烧速率,火焰高度,火焰温度和流动速度。此外,火旋风会诱发远距离飞火,造成火灾的非连续性蔓延。因此,火旋风是大尺度火灾形成的重要机制,也是火蔓延加速的关键原因。深刻揭示火旋风的燃烧动力学机制与规律,能够为发展森林和城市火灾防控技术提供科学依据。热释放速率(火源强度)
近年来发展起来的二维材料家族种类众多、性质丰富,在未来微电子器件等领域具有巨大的应用前景。与传统三维材料相比,除了维度效应带来的各种新奇物性,二维材料的一个显著特点是其便于多层异质堆叠,层间通过较弱的范德华相互作用连接而不形成强的化学键。这不仅有利于将具有不同性质的二维材料相互堆叠组合成具有新的性质的异质结,同时还可以对二维多层体系通过施加垂直于二维面的应力、电场,或者通过层间滑移等方式改变层间相
在互联网和智能物联网时代下,各行各业在数字化与信息化进程中产生了海量数据,基于海量数据的深度学习模型和算法也在高速迭代发展,数据和模型本身已经初具价值并逐渐成为知识产权。为保护数据共享交易场景下的数据和模型的知识产权,研究人员在诸多方面做出了努力,数据和模型标记工作就是其中重要的基础之一。数据和模型标记是将数据和模型进行技术上的“标记”以抵抗数据共享交易中的对知识产权有威胁的部分不合规行为(复制、
量子纠缠作为量子网络的核心资源,能够用来实现量子安全通信,分布式量子计算和量子传感。得益于光子的高重构性和鲁棒性,其已被广泛应用于这些应用中。本文中,我们利用线性光学系统制备和操纵纠缠光子,对量子网络和量子传感的关键问题展开相关研究。第一章中,我们总览了当前量子网络及其关键技术的研究进展。第二章中,我们理论和实验研究了线性光学系统的几个关键方面,包括自发参量下转换过程中的相位匹配、对比度和收集效率
生物质能行业蓬勃发展的同时,其火灾安全问题也亟待解决。生物质作为典型的固体可燃材料,与其原料和成型燃料相关的火灾事故时有发生,危及社会安全的同时还会造成环境污染。生物质火灾的产生不仅与生物质的种类和形态有关,而且与其氧化热解和燃烧的特性及机理密切相关。对生物质氧化热解和燃烧行为和规律的研究,是预测生物质火灾发生和发展的基础,有助于深入理解生物质燃烧引发火灾的机制,有利于生物质着火和燃烧模型的开发,