论文部分内容阅读
移动互联网的高速发展,加剧了互联网的信息过载,用户很难从海量的数据中获取自己感兴趣的内容,个性化推荐系统可以缓解大数据给用户带来的选择压力。协同过滤算法是个性化推荐领域应用最广泛的算法,然而该算法在处理大数据规模的推荐问题时,计算耗时大,推荐效率低下,且算法的可扩展性差,不能满足现实生产的需要。当前人们主要利用分布式集群的并行计算来提高算法的执行效率,集群计算需要搭建本地的数据中心或者租赁集群服务,集群管理和扩展的成本高。在并行计算领域,GPU由于其高并行、高内存宽带和成本低等特点引起业界的关注。然而单GPU的计算能力有限,在本地搭建GPU集群同样有着可扩展性和集群管理等问题。亚马逊的云计算平台提供了云环境下的GPU集群,与本地GPU环境相比,云GPU集群拥有更高的计算能力,且成本低可扩展性好。因此,本文提出一种基于AWS GPU集群的协同过滤算法,实验证明,AWS GPU集群的计算能显著提高算法的执行效率,与CPU上串行执行相比,本文的算法最高可以获得390倍的加速比。然后本文介绍了在AWS做应用系统的设计的思路,利用本文提出的算法实现了一个阅读类的内容聚合平台,为企业搭建基于云的个性化推荐系统提供了一种可行的方案。本文的主要工作有:(1)针对大数据规模下协同过滤算法的可扩展性差的问题,本文设计了一种基于AWS GPU集群的协同过滤推荐算法的实现方法。本文在设计并行算法的过程中解决了一系列问题包括:AWS上GPU集群中各节点的任务划分问题;各节点计算数据动态传输问题;推荐算法具体过程的GPU并行问题。本文实现在不影响算法精度的前提下提高算法的性能,降低了推荐系统的成本,为普通用户研究并行协同过滤推荐系统提供了一种可行的方法,同时为中小型企业搭建基于云计算平台的推荐系统提供了参考。(2)将本文提出的基于AWS GPU集群的并行协同过滤推荐算法应用内容聚合类应用的个性化推荐系统中。本文通过收集用户对应用的历史操作信息挖掘出隐式的用户-物品评分表,然后将本文提出的算法作为应用个性化推荐系统的核心。最后实现了一个简单的阅读类内容聚应用的个性化推荐系统,为企业参考本文算法搭建基于AWS的个性化推荐系统提供了一种可行的方案。