Netflix Prize中的协同过滤算法

来源 :北京大学 | 被引量 : 0次 | 上传用户:anewday4all
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着存储技术的迅速发展,电子商务和零售企业正在积累着越来越多的用户交易数据。而产品或服务(统称为产品)的渐趋多样性使得用户在购买产品时往往需要花费大量的时间筛选产品。推荐系统被发展用来减轻用户的筛选负担,它为用户提供个性化的产品推荐。精确的推荐系统可以帮助用户更容易地找到他们所需的产品,也可以通过改进用户体验帮助企业提升用户忠诚度进而把更多的产品浏览者转换为产品购买者。   一般地推荐系统首先通过分析用户过去的购买行为建立合适的产品排序模型,然后使用获得的模型为用户产生个性化推荐。例如,一个在线商店可以根据用户对产品的评分,以及他们购买的、加入购物篮的和浏览的产品获得用户对产品的偏好,进而为用户推荐他们感兴趣的产品。   鉴于产生推荐的方式不同,推荐系统通常可以分为以下三类:(1)基于内容的过滤(content-based filtering):基于内容的过滤(CBF)方法根据抽取出的用户和产品特征获得推荐。这类方法利用用户和产品的特征计算他们之间的匹配度,最终把匹配得最好的数个产品推荐给相应的用户。(2)协同过滤(collaborativefiltering):协同过滤(CF)方法首先分析已经收集到的用户-产品评分对中所呈现的用户与产品的相互作用,然后它们利用这些相互作用产生对用户的推荐。(3)CBF与CF的混合过滤(hybrid filtering):混合过滤方法组合CBF和CF方法以期在克服它们各自缺点的同时融合它们特有的优势。   本论文中我们研究及发展了应用于Netlfix Prize竞赛的各种CF算法。NetflixPrize竞赛由在线DVD租赁公司Netflix于2006年10月创建,旨在推进学术界和工业界对CF算法的研究。它所发布的数据集为目前最大的免费公开的CF数据集。在这几年的时间内众多参赛者提出了各种高效的CF算法,其中包括邻居模型(kNN)、矩阵分解(MF)、受限玻尔兹曼机(RBM)以及聚类模型等等。我们在本论文中提出了一些新的推荐模型,并详细介绍了Netflix Prize中各种具有代表性的模型。本论文的创新性主要体现在以下几个方面:   ·我们组合了因子模型matrix factorization(MF)和模糊聚类模型fuzzy c-means(FCM)的想法,提出了一种新的聚类模型--modified fuzzy c-means(MFCM)。相比于MF,FCM的解释更容易让人理解和接受。但对于NetflixPrize问题,MF可以获得比FCM更精确得多的预测结果。新模型MFCM试图整合FCM更好的可解释性以及MF更加精确的结果预测性。我们也构造了两个新的算法来求解MFCM,它们在Netflix Prize数据集上的实验表明MFCM获得了比FCM更加精确的推荐结果,其预测精度与MF相仿,且其算法结果比MF的结果更易解释。   ·对于离散CF问题,我们使用二项分布代替MF模型中评分假设的正态分布,从而获得了一种新的矩阵分解模型--binomial matrix factorization(BMF)。离散CF问题中评分只允许有数个离散值,所以此时BMF中的二项分布假设比MF中的正态分布假设更加合理。我们同时构造了两个新的算法来求解BMF,这两个算法应用于Netflix Prize数据集时获得了比MF更好的预测精度。我们也把评分满足二项分布的这种思想扩展到了聚类模型,新产生的聚类模型在Netflix Prize问题上获得了很大的预测精度提升。   ·我们把CF问题发展到三维情形,并称之为立方填补(cube completion)问题。实际上个性化网页搜索和个性化广告投放就是典型的立方填补问题。关于立方填补的研究目前还很少,就我们所知,我们是首次把它们作为一类问题抽象出来,并对它们进行系统的研究。我们构造了一些求解立方填补问题的可行算法,如贝叶斯聚类、立方聚类和立方分解等等。我们在构造的虚拟数据上对这些算法进行了一些检验,计算结果表明这些算法对于不太稀疏的数据集都可以获得很好的预测效果,但当数据稀疏程度加剧时,不同的模型之间将呈现出较大的预测效果差异。
其他文献
本论文致力于研究用Magnus级数方法求解时间相关的Schrodinger方程时的一些特点和应用.论文给出了由Magnus级数方法和不同求积公式结合得到的三个公式,分析给出了它们的阶,并
  本文利用可积系统研究从偏微分方程uxxx=~F(u,ux,ut)到非线性偏微分方程G(v,vx,vt,…,xv,…,ltv)=O的Miura变换u→v。在一些限制条件下,我们对Miura变换进行了分类,并把经典的从M
内容摘要:本文在第一和第二章主要证明了以下结论:( Ⅰ)设m,d都是正整数,且m≥2,G是一个(2md+1)-正则图,证明了若G不含(2m-3)d+4条割边,则G有一个2d-因子,进而说明上述结果是
目前,大学生的数量在逐年增加而做好大学生的管理工作的难度也越来越大.辅导员在学生管理工作中起着重要作用.大学生阶段是学生成长的重要阶段因此辅导员对大学生的管理与教
学位
由于高中学生在智力发展、学习能力等多个方面都存在不同程度的差异性,所以就会造成学习效果的差异性。随着新课程标准的实行与推广,在高中数学教学中要灵活运用分层教学策略
张家口,作为国家级贫困市,地理环境恶劣,经济发展滞后。然而,就在这片贫瘠的土地上,民兵工作却开展得红红火火,民兵工作“三难”得到很好解决——每年民兵训练经费足额到位;
本文主要内容包括两部分:  第一部分:详细讨论了上下文无关文法理论上的一些新发展以及在并行编译中的应用.重点介绍两种特殊文法:LL(1)文法和乔姆斯基范式的并行处理基础和判
在自然语言处理(NLP)中,当前词语相关性研究对象主要局限于词对相关性,且计算方法和评测手段皆独立于待分析文本。词对相关性是目前已明确提出并得到广泛研究的一种相关性。但由
摘要:计算机断层扫描成像技术(Computerized Tomography,CT)是现代科学与工业应用领域内重要的研究方法与应用技术,计算机断层扫描成像技术在理论上归结为由投影重建图像的问