基于Flickr异质网络的内容推荐技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:q365709285
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断的向前发展,信息量爆炸问题已经存在已久并且在相当长一段时间内还会持续扩大化。互联网用户时刻面临着信息碎片化的问题,如何有效的筛选信息,获取更感兴趣的资讯成为迫在眉睫的需求,而推荐系统正是解决这一问题的利器。推荐系统是通过建模分析用户的兴趣偏好和历史行为,主动地向用户推荐他可能感兴趣的信息,比如向用户推荐他可能感兴趣的图片,地点等。而用户和待推荐对象的向量化特征表示是决定推荐系统效果的关键性因素。目前最为广泛使用的向量化方法是基于矩阵分解的一大类方法,通过分解得到的用户和对象之间的隐含变量建模出用户的兴趣偏好和对象的属性特点,从而实现推荐。然而,传统的基于矩阵分解的方法均面临着数据稀疏的问题,即当用户和对象之间的相互关系信息的观测值非常稀疏时,传统的矩阵分解技术很难从中有效地挖掘出用户的兴趣偏好和对象的属性特点。  另一方面,随着在线图片分享网站(例如:Flickr)的兴起,数据的种类和数据之间的相互关系越来越多样化。例如,用户上传图片的内容信息,用户之间好友关系,用户对图片的标注、评论等多种行为,图片自带的地理位置信息等。这些信息抽象成数据对象及其相互关系,即可构成典型的异质信息网络。如果能针对特定的推荐场景,高效并充分的挖掘和利用异质信息网络内部各个数据对象及其关系之间的关联性,将有效解决传统方法中数据稀疏的问题,从而提高推荐效果。  因此,本文的工作主要围绕基于异质信息网络的推荐展开,针对不同的推荐场景,提出相应的有效融合内容信息的解决方案。本文研究的主要内容和贡献如下:  1.本文针对在图片和标签相关联的推荐场景下,社交网络上图片的用户标注存在大量缺失和噪声的问题,提出了一种基于社会属性的图片自动标注算法。该方法通过建模用户标注偏好一致性和内容与标签分别表征的图片相似度一致性来解决如何补全缺失的图片标注和消除噪声标注这一问题。具体而言,社交网络图像具有丰富属性信息(位置、用户等),考虑在局部地理区域同一用户对所拥有图像标签偏好一致的假设下,引入用户先验信息以提升标签推荐算法性能。现有基于矩阵补全的前沿算法存在维数灾难问题,考虑利用图像的位置信息聚类分块处理。本文所提出的方法在公开数据集YFCC100M的两个70万规模数据子集上的图像标注性能都超过了现有的前沿的矩阵补全方法5%以上,聚类后分块并行处理有效降低了算法复杂度。  2.本文针对图片与用户和地点相关联的推荐场景,提出了一种基于集成式矩阵补全的语义特征学习方法,它通过挖掘社交网络上异质对象(图像,标签,用户,地点)间存在的多种二元关系,将这些关系集成式学习更好的语义特征(用户标签关系和地点标签关系)并用于多种推荐应用中去。图像与用户之间以及图像与地点之间的一对多关系可以对图像以用户和地点分别分块处理。对单一用户(单一地点),按照图像与视觉内容间关系指导图像标签关系学习和图像标签关系指导用户(地点)标签关系这一信息共享传递链的方式集成式学习两种语义特征。本文的方法能将异质信息网络的多种关系更有效地融入到部分关系集成式学习中,帮助解决数据稀疏的问题。  3.本文针对用户和地点相关联的推荐场景,提出采用深度度量学习的基于内容的地点推荐方法,通过将用户和地点分别用深度视觉特征表达并加入度量学习约束,有效地将潜在的感兴趣地点推荐给用户。图片经过卷积神经网络处理后的输出包含丰富的高层次语义信息(深度特征),而图片和用户以及图片和地点之间的关系使得用户和地点可以分别用图像的深度特征来表示。同时为了学习到更好的图像深度特征,考虑用度量学习的策略让具有相同用户或者相同地理位置的不同图像的深度特征表示尽可能趋向一致。本文的方法在YFCC100M的多个以城市经纬度划分的数据子集上的地点推荐性能都相对于现有的基于矩阵分解类地点推荐方法有明显提升。
其他文献
IP电话是VoIP(Voice over IP)技术的一种应用,随着H.323、SIP等相关VoIP技术的发展,IP电话技术中的控制及信令体系日臻完善,IP电话可以实现的已不仅仅是PC到PC的简单呼叫,将
随着计算机技术及其应用的不断发展,出现了许多访问控制模型。目前,集成多种访问控制机制,提供一个整体解决方案,方便用户根据需要灵活选择和组合使用各种访问控制成为一种趋势。
本文总结了地理信息系统和WebGIS基本技术知识,并对基于WebGIS的城市消防系统的软件设计开发进行论述.本系统所选用的对象/关系型空间数据库ZEUS,是一个将关系型数据库系统和
将人工免疫系统运用到入侵检测系统中,近年来已经有了一定的发展.在这个领域中,如何利用人工免疫学的基本原理,培育山符合需求的免疫细胞,使能够较多的识别非我并较少的识别
重复数据清理是当今数据质量研究的一个重要问题,清理重复数据关系着数据库服务的质量.因此,论文查重子系统是科研服务平台中的一个部分,它提供了对整个科研服务平台中的英文
在中国目前的集中阅卷工作中,大多延用的是传统的模式.也有一些替代模式,但是由于成本过高或使用复杂而无法得到广泛的应用.该文提出了一种成本低廉、使用方便的解决方案--无
云计算是计算机时代的一个进步,其有效地整合了计算机的计算能力,并将计算能力商品化,按需付费使用。Hadoop“移动计算而非移动数据”的设计思想,很大程度上符合大规模数据处
对工作流的研究起源于二十世纪七十年代,受网络的局限性,最初的工作流系统主要以企业内部的文档处理为主。到了二十世纪九十年代,随着Internet技术的发展及应用,促进了电子商务应
随着社会的发展 ,各个方面对快速有效的自动身份验证的要求日益迫切。由于生物特征是人的内在属性,具有很强的自身稳定性和个体差异性,是身份验证的最理想依据。从而,“生物特
并行遗传算法中的迁移包括两个子过程:一、从源子群体中选择一定数目的个体迁出,迁出是通过对被迁出个体的复制来实现,不改变原来群体的组成;二、在接收子群体中迁入个体替换