基于网络表示学习的推荐技术研究与系统实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:tlswedu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,伴随着信息技术的迅猛发展和广泛应用,人类已迈入一个“信息大数据”的时代。各类互联网应用作为信息技术的产物,极大程度地便利了人们生活,也带来了所谓“信息超载”的问题。推荐系统作为最有效的解决方式之一,可以主动从大规模数据集中挖掘用户兴趣或需求,为用户提供个性化服务。目前,推荐领域仍面临着一些关键挑战。  首先用户和物品的特征表示学习是推荐系统中的一类基础性问题。特征表示的好坏,可以直接或间接地影响到最终的推荐结果。目前,传统的推荐方法普遍缺乏对用户行为数据的深层次挖掘,具有一定的局限性。因此,如何对用户和物品进行有效的特征表示成为该领域内的一个热点问题。其次,大规模数据场景下,推荐算法的可扩展性和推荐框架的灵活性也成为关键挑战之一。  本文主要围绕基于网络表示学习的推荐技术展开研究,并设计实现了基于Spark GraphX的大规模推荐系统。我们的研究工作和成果包括:  1、首先,对于二部图网络中的两类邻近性,给出了形式化的定义和分析。在此基础上,我们提出了基于网络邻近性的表示学习算法ComLINE。该算法通过融合两类网络邻近性,建立有效的数据模型,学习图中各节点的分布式特征表示。该方法具有如下优势:(1)从网络邻近性出发,利用浅层分布式表示模型,学习用户和物品的特征表示。(2)该方法在原始负采样策略的基础上,考虑了已知负样例,优化了节点的特征表示。(3)该模型具有良好的可扩展性,能够应对大规模数据场景。  2、与网络邻近性相比,游走能够将网络中的一阶关联扩展到二阶甚至更高阶,有效地学习节点的分布式特征表示。因此,我们提出基于网络游走的表示学习算法Opt Walk。该算法利用灵活的节点跳转策略,结合深度和广度挖掘节点的邻居集合,学习用户和物品的特征表示。最后,我们在三个数据集上进行实验结果的对比分析。结果表明,OptWalk算法不仅在准确率、召回率等指标上均优于其他基准方法,也可以在不降低精度的前提下,提高推荐结果的覆盖率。  3、推荐系统在实施过程中迫切需要一个灵活的框架结构,以适应用户数据规模不断扩增的现实。我们设计并实现了基于Spark GraphX的大规模推荐系统。它主要分为三大功能模块,即数据收集、推荐引擎和结果处理。推荐引擎作为核心模块,主要对上述提出的两个算法进行了分布式实现。最终,该系统能够在大规模数据情况下保持良好的性能。
其他文献
面向对象技术在软件工程中的推广使用,使得传统的测试技术和方法受到了极大的冲击.传统的测试技术已经无法有效的测试面向对象程序,因此测试策略和测试方法都需要进行相应的
随着计算机处理器性能的提升和存储部件的容量增大,程序设计规模也越来越大,功能越来越复杂,程序出错也不可避免地越来越多。统计表明,程序出错的主要来源之一是错误的访存操作。
学位
作为语言的基本单元,单词与句子的表示,一直是自然语言处理领域的核心问题。传统的单词表示通常采用独热表示,将单词表示一个个互相独立的向量。在此基础上,研究人员构建了空间向
该论文主要是针对目前移动通信系统的发展,特别是CDMA移动通信系统的应用,分析了移动通信系统的特点以及网络管理系统在移动通信网络中的实践,对国外成熟的网管产品进行了理
当前因特网规模的不断增长导致了IP地址逐步耗尽,以及Internet路由系统负荷日益增多.此外,消费者对于移动IP的许多增值服务和QoS的要求不断提高.针对这些问题,IPv6作为一种新
在电子商务迅速崛起的今天,各企业的应用服务器之间迫切需要实现大量的互操作来满足日益增长的电子商务业务需求。而目前存在的大量的OLTP系统由于其模型的固有缺陷,往往被局限
随着移动互联网的发展,WiFi成为一种十分重要的接入方式。有研究表明,高达91.8%用户通过WiFi接入互联网,并且占所有网络流量的比例为53%。超过一半的实际测量结果中WiFi接入时延占
WebGIS,可以简单的定义为Internet上的GIS,是利用互联网技术完善和扩展传统地理信息系统功能的技术。研究和实现J2EE体系结构下的WebGIS系统有着深刻的理论意义和应用价值,代表
该文从视频点播系统的体系结构出发,深入研究了视频点播系统的各个组成部分以及较常采用的解决方案,这些组成部分即包括硬件设备也包括一些新的技术和协议.在此基础上,设计了