大规模数据集下推荐算法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:XYYWLC
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,推荐服务已经成为亚马逊、Netflix,Flicker,Delicious等一类用户虚拟生活平台上的一项基本服务。在这些虚拟生活平台上,用户可以对平台上的物品进行各种操作,如在亚马逊上用户可以对书籍浏览、购买,在Flicker上用户可以对图片浏览、评论、打分、分享等等。由于物品数目过大,用户无法逐个浏览,平台自动地向用户推荐物品就显得尤为重要,推荐的效果直接影响着用户体验。平台上积累的大量用户和物品间的交互数据也使得这种推荐变得可行。基于这些数据,目前研究领域已经提出很多成熟的推荐算法。   随着互联网的广泛普及,近些年来,这些虚拟生活平台上用户数目急剧增长,同时用户参与度也不断加深,这些因素使得这些平台上数据的规模越来越大。如淘宝网上用户规模超过2亿,京东用户规模超过1亿,优酷用户规模超过3亿。这种大规模数据集对算法提出了新的要求:(1)时间效率,由于数据规模大,要求算法高效;(2)空间效率,由于一般推荐算法非常耗费存储,需要存储大量中间结果,海量数据时,要求空间效率足够高;(3)算法效果,海量数据下算法面临着更加严重的数据稀疏性问题,要求算法效果足够好。   要解决上面列出大规模数据集下对算法的挑战,必须使用分布式算法。而近年来,特别是Hadoop流行之后,集群技术得到快速发展。各种成熟的集群技术使得推荐算法的分布式实现变得简单可行。   为此,本文提出了一个分布式的超大数据集下的推荐算法。该算法首先通过模糊切分方法将原始数据集切分成若干个子数据集,然后独立的计算出每个子数据集的矩阵分解结果,最后组合这些结果并生成最终推荐。算法可以非常方便的在各种并行平台(如Hadoop)上实现。本文(1)详细介绍了该并行算法;(2)在Hadoop平台上实现了算法;(3)通过在真实的数据集上实验,验证算法的时间效率、空间效率、推荐效果(4)详细分析了算法效果与可扩展性并总结了下一步工作方向。
其他文献
该文首先对广义系统的基本概念、基本理论做了介绍,接着重点讨论了广义系统的输 出稳定问题和广义系统能量有限的有限制调节器问题.该文是利用几何方法对这两类问题进行探讨
电弧炉是炼钢工艺的重要设备,短网一般指的是从变压器二次侧出线端到电极(包括电极)的载流体的总称。由于短网是大电流网络,在冶炼时电流一般可以达到上万安培甚至是十万安培
该文采用系统工程的作分析方法,即围绕系统的整体性、有序性和动态性来分析风险投资,该文首先将风险投资与一般性金融投资作了比较,指出了风险投资的实质、特征、运作机理及
随着社会的进步和公路交通系统的飞速发展,交通安全已成为越来越重要的社会问题。因此智能交通系统(Intelligent Transpoit System,简称ITS)得到了广泛关注和研究。作为智能交
自然生命的诸多行为和技能是在生物个体的生长发育过程中逐渐形成和发展起来的。自然生命行为或技能的形成过程是一个认知和发育的过程。赋予机器人这种类似于自然生命认知和
该文着重探讨此类非确定多属性决策(UMADM)的理论、方法及应用,主要内容如下:(1)对MADM及UMADM的发展动态作了系统综述,评估现有典型的多属性决策方法;(2)对UMADM的不确定性
该文从系统分析的角度出发,全面系统地分析了中国工业固体废弃物产生量和主相关因素,指明今后控制废弃物产生量的方向,并对工业固体废弃物综合利用进行了经济效益分析,阐述了
毫米波雷达具有工作频带宽、分辨率高、抗干扰性能强、全天候工作的特点,在交通安全领域中有着广泛的应用前景。论文以交通安全领域毫米波雷达探测系统为背景,研究了雷达系统技
仿生机器鱼及机器海豚的研究从最初的理论分析、简单功能模仿,发展到现在开始追求真实鱼类的运动性能。本文对鱼类运动性能的三个基本方面:高效率、高机动与高游速,分别进行
广告视频作为广播电视视频中的重要组成部分,影响着人们的生活和工作方式。实现海量广告的有效管理,满足高效的浏览与检索需求,依赖于具备大型已知广告库的广告智能管理系统。传