基于预测置信度的协同过滤稀疏性问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:muhututu1216
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联互通技术的高速发展和智能移动终端的广泛普及,人类已经进入了信息爆炸时代,信息量的指数级增长导致了信息过载问题的产生。如何在浩如烟海的互联网内容中找到真正需要的信息,特别在电子商务中从琳琅满目的商品列表中挑选心仪的产品,一直是热门的研究内容。分类目录仅提供了费时费力的树状条件筛选功能,搜索引擎技术的出现为人们提供了基本的信息查询方案,而个性化推荐系统则提供了智能化和个性化的信息过滤机制。个性化推荐系统根据用户的浏览历史记录推测用户的兴趣爱好,并据此将可能受喜好的资讯或者商品推荐给用户。协同过滤是目前个性化推荐系统中部署最广泛、效果最成功的推荐算法,有着预测准确率高、推荐覆盖度高、可以处理复杂结构数据等优点,但是面临数据稀疏和算法可扩展性等问题的挑战。   在基于协同过滤的个性化推荐系统中,将用户对于项目的偏好量化为评分数据从而构建(用户—项目)评分矩阵,根据评分矩阵预测用户对于未知项目的评分,将预测评分较高的项目推荐给用户。由于推荐系统中用户基数较大且项目总量庞大,用户评分过的项目在总体项目中比例较小,同时存在着有些冷门项目几乎无人问津的情况,导致(用户—项目)评分矩阵稀疏,推荐算法在相似性计算、近邻空间选择和结果预测阶段精度受到影响。为了克服数据稀疏性问题,研究人员提出诸如缺失值填充、预测结果融合等方法。本文的主要工作内容如下:   1.提出差异化的个体相似性计算算法   传统的个体相似性计算算法无视用户和项目的个体性质区别,对用户相似性和项目相似性采用了相同的计算方式,这显然是不合理的。通过分析用户和项目的个体特性得到他们的数据特性,采用针对性的计算方式能够提高用户相似性和项目相似性的计算精度,降低数据稀疏性问题对协同过滤算法性能影响。   2.基于预测置信度对多个预测结果进行自适应局部融合   预测结果融合算法是指对未知评分使用多种方式进行预测,将多个预测结果进行整合得到最终预测结果,能够提高整体预测精度。由于评分矩阵的不规则,考虑不同的(用户—项目)评分项进行预测时能够信赖的预测方法的差异性,计算预测方法对每个未知评分的预测置信度,根据预测置信度进行自适应局部融合,能够取得比传统的全局融合算法更好的整体预测精度。
其他文献
随着计算机、通信与网络的飞速发展,信息泄漏等问题受到了越来越多的关注。基于内容的网络信息审计,是保证信息不被泄漏,防止非法信息传播的有效手段,其关键技术为多模式文本匹配
随着多媒体技术和虚拟现实等技术的飞速发展和不断提高,三维模型在医学、机械工程、计算机辅助设计(CAD)和娱乐等众多领域都有越来越广泛的应用。三维模型应用的日趋普及,创
手写汉字串识别是金融票据自动处理系统的重要组成部分。本文对银行支票“用途”域的手写汉字串的识别进行了研究,给出了具体有效的解决方案。研究内容包括以下几部分:字串图
矢量场可视化是科学计算可视化研究领域的一个热门课题。本文针对线积分卷积矢量场可视化方法进行了研究,并对其存在的两个不足点提出了改进。最后,本文基于Visade可视化平台开
随着我国十二五规划的出台,三农问题再次成为人们关注的焦点。农业信息化作为解决三农问题的重中之重,得到了党和国家的高度重视和支持。柑橘作为我国具有较强竞争力的农产品
基音周期是语音编码、语音识别、语音合成等语音信号处理中的一个重要参数,基音检测的准确性和鲁棒性在这些领域都发挥着重要的作用。当前的基音周期检测算法容易引起基音周期
随着计算机软硬件技术的发展与人类文化水平的提高,产生了越来越多的电子文献。文献查阅作为科学研究与知识获取过程中必不可少的工作,常常需要花费大量的时间和精力去搜索文献
诸如银行业务、航空预定、通信、网络支付、在线文件传输、在线视频会议等诸多行业对服务器要求甚高,几分钟的服务中断可能对这些行业造成数以万计美元的损失。服务器全天候24
随着数字化和信息化社会的发展,人们对信息安全的重要性认识不断提高。正如电子购物、电子邮件、网络银行等悄悄地融入普通百姓的日常生活中,人们自然要关注其安全性如何。信
在地球系统模式研究领域中,地球系统模式数据包含四部分:海洋数据、大气数据、陆地数据和海冰数据。这些数据中存在很多的标量场,我们可以通过研究和分析这些标量场来加深对全球