Research on Hybrid Movie Recommendation Algorithm based on Bias LFM and LSH

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:wusyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,互联网上的各种数据正在急剧增加。这些数据在为人们提供便利的同时,也会带来“信息超载”的问题。如今,以基于内容和协同过滤为代表的个性化推荐算法已成为解决此问题的重要手段,使人们能够从大量信息中高效地获取他们所需的信息。然而,随着大数据时代的到来,协同过滤推荐技术的发展也面临许多挑战,其主要原因有两点:1.矩阵数据稀疏问题。在一个推荐系统中,例如以Netfix为代表的电影推荐系统,用户已评分电影在所有电影中所占比例较小,这就导致了用户电影评分矩阵的数据极端稀疏,并且随着系统中用户和电影数量的不断增长,用户电影评分矩阵的稀疏性还在不断扩大,这就导致了在计算用户或电影的最近邻时准确率就会比较低,从而使得推荐系统的推荐质量急剧下降。矩阵虽然庞大但是信息却很稀疏,这种情况就是所谓的数据稀疏性问题。2.系统可扩展性问题。在协同过滤推荐中,最耗时的部分是相似度计算的过程。在大型推荐网站中,用户和项目的数量通常可以超过百万。当用户的各种属性和行为数据以及物品的各种内容和属性数据不断增多,在进行推荐时每次都需要扫描全部的用户项目评分矩阵,会消耗大量的内存和时间,从而降低推荐的效率。因为数据不断增多使得系统推荐的效率降低,这就是推荐系统的可扩展性问题。这些问题都是基于协同过滤的推荐系统面临的关键问题。为了解决这些问题,本文提出了一种基于时间偏置的潜在因子模型(Latent Factor Model,LFM)和局部敏感哈希算法(Local Sensitive Hashing,LSH)混合的方法来改善矩阵数据稀疏以及可扩展性的问题。本文的主要工作如下:1.为了改善数据稀疏所引起的预测准确率的问题,本文在基于潜在因子模型算法的基础上加入了用户和电影的时间偏置项,改进了潜在因子模型的损失函数。潜在因子模型算法的基本思想是将原始的评分矩阵拆解成更小阶的近似矩阵,这些近似矩阵通常被认为能够挖掘用户一些潜在的偏好倾向,所以可以通过训练这些分解的矩阵来预测用户对电影的评分。虽然原始的用户电影评分矩阵可以通过矩阵分解的方法来表达用户的潜在偏好以及电影的类型,但是由于电影的评分有很大一部分因素是和用户对电影的喜好无关而只取决于用户或电影本身特性的。本文引入了基于时间的用户和物品的偏置项来优化这些预测的误差。对于乐观的用户来说他们比较倾向给电影一个较高的评分,而悲观的用户评分普遍较低。对于电影来说,受大众欢迎的电影普遍评分较高,而一些小众电影则相反。这些因素都是独立于用户或项目本身的因素,和用户对电影的的偏好无关。已有研究表明,加入这些独立的用户和项目的偏置因素对提高预测的准确率有着积极作用。所以本文基于电影推荐的现实情况,为了改善传统矩阵分解算法在预测评分时的误差,提出了加入用户和电影的时间偏置因素来改善潜在因子模型损失函数的方法。改进损失函数的方法是在原本的基础上加入了用户自身观影兴趣随时间变化对于电影评分的影响和电影流行度对于电影评分的影响。基于用户自身观影兴趣随时间变化对于电影评分的影响主要是根据艾宾浩斯记忆曲线模拟了一定时间内用户的观影兴趣变化,而基于电影流行度对于电影评分的影响指的是根据当前电影的热度来修正对于电影评分的影响。在这一部分,本文基于用户以及电影自身的时间偏置因素,对潜因子模型的损失率函数进行了改进,期望在解决矩阵稀疏性问题的同时提升评分预测的准确率。2.为了改善推荐系统的可扩展性,提升推荐的效率,本文采用局部敏感哈希的算法,通过矩阵的降维来减少数据的查找范围。局部敏感哈希的算法的基本思想是将高维空间的数据映射为低维数据,并保证数据间的相似性,也就是原向量空间中的距离相近的两点经过映射后的距离依然很近。在推荐系统中通过局部敏感哈希的算法可以将相似的用户以较高的碰撞概率哈希到同一个哈希桶内作为候选用户,此方法可以过滤掉大量不相似的用户来避免不必要的相似度计算,从而快速获取近邻的相似用户。在传统的哈希方法中,往往只通过一个哈希函数映射到一个哈希表的方式对数据进行处理,这样往往会产生很多误判率,即相似的用户被映射到不同的哈希桶,不相似的用户被映射到相同的哈希桶。为了减少这种误判率,局部敏感哈希算法通过改造符合要求的哈希函数以及引入多个哈希表的方式来进行处理。改造哈希函数的方式是将多个局部敏感哈希的哈希函数合成一个哈希函数,输入两个用户的评分向量,两个用户相似当且仅当这两个用户向量在多个哈希函数的映射后,哈希值相同。引入多个哈希表则是将哈希映射的次数扩大,一个新合成的哈希函数对应一个哈希表,如果至少在一个哈希表中两个用户落在了同一哈希桶中,那么这两个用户也是相似的。构造新哈希函数的做法可以有效地降低不相似的用户哈希到同一个哈希桶的概率,而引入多个哈希表的做法可以提高相似用户落入同一个哈希桶中的概率。基于这种局部敏感哈希算法的思想,本文构造了一个相似用户的索引结构,通过将用户的评分向量作为输入,相似用户会被哈希到哈希表的同一个哈希桶中。通过这种索引结构,查找相似用户集合的时间接近常数时间,即通过构造用户索引的方式提高推荐的效率,从而改善推荐系统的可扩展性。3.本文所做的实验均使用MovieLens数据集进行验证。通过对传统的矩阵分解方法奇异值分解(Singular Value Decomposition,SVD)以及Funk SVD算法的对比,分别对各算法实验结果平均绝对误差(Mean Absolute Error,MAE)和均方根误差(Root Mean Squard Error,RMSE)进行分析,可以证明在考虑了时间因素的情况下,潜在因子模型比其余两个矩阵分解的算法预测评分的误差更小,并且确定了在潜在因子值应大于60的情况下,使用潜在因子模型可以很好地减少预测评分的误差值。通过对LSH算法中哈希函数以及哈希表数量的控制,可以看出哈希函数数量越多,近邻相似用户的计算就越严格,准确率更低。而哈希表的数量越多,搜索近邻相似用户的条件就越宽松,更多的相似用户会有更大的概率落入同一个哈希桶中。通过对比在基于用户的协同过滤是否加入LSH算法,观察到当加入LSH算法查找近邻用户的时间降低至接近至常数时间,远低于传统的基于用户的协同过滤算法,并且预测评分的误差相差不大。实验结果证明,对于传统的矩阵分解算法,在损失函数中加入用户和物品的偏置项可以较好的提升评分预测的效果。同时通过对用户电影矩阵构造索引结构的方法,降低了查找相似用户的消耗时间,从而改善推荐系统的可扩展性。
其他文献
西南喀斯特区坡耕地是我国主要水土流失区之一,水力侵蚀是该区土壤侵蚀的主要发生方式之一。雨滴击溅作为水力侵蚀最初阶段,可使地表土壤团聚体分散迁移,増强地表径流侵蚀作用,加剧水土流失,严重危害该区的生态环境安全。但目前对于引起喀斯特区水土流失的初始阶段的溅蚀发生规律及进而深入探讨如何破坏土壤结构影响研究相对较少。因此本研究以喀斯特典型石灰土为研究对象,采用自制雨滴发生装置模拟5种不同直径雨滴,开展不同
工业革命以来,化石燃料的大量燃烧导致大气中CO2浓度不断升高。由于CO2是植物光合作用必不可少的原料,这将对植物生长发育产生深刻影响,而植物对CO2浓度升高的响应程度与矿质营养密切相关。氮(N)是植物生长所需的首要矿质营养元素,因此,CO2浓度和N的交互作用将怎样影响植物生长发育及生理生化过程?基于此,本研究以传统药食同源植物薏苡(Coix lacryma-jobi)为研究对象,采用盆栽控制实验,
外来入侵植物的成功入侵及扩张通常会导致本地植物退出原生境。西南喀斯特地区物种多样性较为丰富。然而,近年来剧烈的外来植物入侵打破了喀斯特生境的生态平衡,严重威胁着当地的物种多样性及自然生态系统稳定性。目前关于喀斯特地区外来植物入侵已成为生态学研究的热点论题,但在系统探索机理机制方面还十分有限。丛枝菌根(Arbuscular Mycorrhiza,AM)真菌是一种重要的功能微生物,能与陆地上的许多植物
踩踏路径对草坪具有重要影响,探索踩踏路径的特征及其形成过程有助于草坪管理政策和空间规划。本文以贵州大学校园内草坪踩踏路径为研究对象,采取实地调查和人工模拟踩踏的实验方法,探索踩踏路径的特征、形成过程及其所需踩踏强度。主要结论如下:1.校园草坪踩踏路径可分为捷径、扩展路径和局部路径三种类型。捷径和扩展路径主要分布于宿舍区、食堂、教学楼和礼堂等人流量较大区域,局部路径分布于草坪中凳子和雕像等周围。捷径
本研究于2019-2020年在贵州普定进行,以2个耐密性春玉米品种先玉1171和新中玉801为材料,通过设置3.0、4.5、6.0、7.5、9.0和10.5万株/hm26个密度,系统研究不同种植密度对玉米植株茎秆特性、冠层结构、光合生理特性、产量形成及机收质量的影响,明确2个耐密性品种对增密的响应差异,探明2个品种在贵州的适宜种植密度,以期为贵州春玉米密植高产及机械化高效生产提供依据与指导。主要研
甲骨文又称殷墟文字,是古代汉字的一种形式。甲骨文主要指商代晚期王室用于占卜的甲骨文或兽骨文字,商朝灭亡、周朝兴起后,甲骨文也在一段时期内得到应用,是研究商周社会史的重要资料。甲骨文的内容涉及自然生态、气候灾害、政治制度、皇室结构、宗法庙宇制度、文化礼制、土地所有权等,也包括商朝都城的社会经济生产、交通运输、外交考察以及权贵阶层的衣食住行、健康与疾病死亡、婚姻、养老等日常生活状况。过去研究古代汉字的
我国的公共文化服务对满足群众文化生活、提升全民文化水平、开展精神文明建设起到了重要的作用。基于供给侧改革视角,当前,我国公共文化服务活动还存在很多问题,公共文化服务体系有待完善,服务水平参差不齐,部分区域公共文化设施存在浪费的情况,即使供给了文化活动,也并非群众喜闻乐见的内容,难以获得群众认可。有关部门通过对供给侧改革展开研究,在公共文化服务的供给系统、制度、主体、内容和效率等多个方面寻求科学的发
词汇是小学英语教学中的重点,也是难点。传统的教师领读学生跟读这样机械重复的词汇教学方法难以激发学生的兴趣,因此教学效果不够理想。根据《义务教育课程标准》规定,在小学英语教学中,教师应该利用丰富多样的教学资源,使教学内容、形式、过程更加直观、生动、形象,以适应学生的认知特点。本研究以福建省三明市某小学四年级学生为研究对象,将全身反应法应用于词汇教学实验,目的是观察全身反应法在小学英语词汇教学中的效果
互联网的发展,方便了人们的日常生活,人们可以随时随地查询时事新闻、网络资料、博客等等,也可以快速发表、转载和评论自己喜爱的内容信息。随着互联网技术的快速革新,网络信息数量不断倍增,在更加开放、更新速度更快的互联网平台上发表的信息呈现出几何数量级的增长。随着如此巨量的数据信息资源的涌现,人们一边获得了巨量信息的同时,也不得不用自己大量的时间与精力来查阅和提取,人力手工地从海量的网络信息中提取有用的信
电子束熔丝增材制造技术具有成形速度快、缺陷可控、力学性能如疲劳性能优良等优势,对于高性能大型金属承力构件的制造有重要意义。而在电子束加工成形过程中,由于工件通过熔池融化凝固和堆积成形特点,以及模型的结构特征、成形精度等因素影响,使得需要经过一定后处理才能得到最终的工件,因此需要对加工成形的毛坯件预留一定余量。也就需要对设计数模经过一系列的模型再建处理,得到用以电子束熔丝成形加工的生产数模。基于数模