基于Hadoop的电子商务推荐系统研究

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:huanxytt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子商务使我们的生活变得便捷,它迅速发展的同时也产生了大量的数据,如何帮助用户在海量的数据中快速高效地找到有价值的内容便成了一个重要的问题。目前,搜索引擎和信息分类网站都在一定程度上解决了海量数据的搜索问题,但是,这两者是需要用户通过输入关键字或者提供其他相关信息去查找,才能获取到需要的信息。相比之下,推荐系统的出现则更加的主动和智能化,从而在电商网站中起到了越来越重要的作用。它能以相当快的速度在海量数据中进行检索,不需要用户输入关键字等提示信息,主动的向顾客推荐有用的商品,它的智能化方便顾客的同时也为商家提供了很大的帮助。支撑推荐系统正常运行的推荐算法有很多,协同过滤算法是其中运用最广泛的推荐算法。然而,随着电子商务中用户数量和商品数量的高速增长,协同过滤推荐算法也面临新的挑战,比如数据稀疏性问题、可扩展性问题等等。针对这些问题,本课题对协同过滤推荐算法进行了全面深入的研究,并阐述了通过组合推荐算法来解决数据稀疏性问题,进而完成推荐工作。同时,考虑到受单机性能的限制,当面对需要处理海量数据时,必然会对推荐结果的准确性和效率造成严重影响。因此,采用将协同过滤推荐算法迁移部署到Hadoop平台中,对数据进行分布式处理,提高算法的运行效率,解决算法的可扩展性问题,最终达到增加商品销售量的目的。本文主要的研究工作如下:1)对于常用的几种推荐算法进行深入研究分析,全面了解各个算法的优点和缺点,重点研究了协同过滤推荐算法。2)运用组合推荐算法完成数据填充和结果推荐。该组合算法是将K均值聚类算法、Slope One加权改进算法和协同过滤算法(CF)相结合,以此来实现推荐。K均值聚类算法和Slope One加权改进算法用来解决数据稀疏性问题,协同过滤算法(CF)用来在数据相对完整的基础上实现最终的推荐。3)对协同过滤推荐算法进行改进,使其能够适应MapReduce编程模型,进而达到对数据进行分布式处理的目的,以此来解决算法存在的可扩展性问题。4)对单个推荐算法和组合推荐算法进行评测。本课题运用MovieLens数据集中的数据,通过实验,从各个算法的准确率、召回率和反应时间的角度对算法进行了评测,并对实验结果进行分析。
其他文献
实施"双一流"计划不仅是提升我国高等教育办学水平的重大举措,而且是促进经济社会创新发展、实现中华民族伟大复兴的重要支撑。"双一流"计划引起了社会各界的广泛关注,社会对
阐述了一个典型的煤泥浮选自动控制系统的研究过程。系统采用定值控制方式,根据吨煤药耗确定浮选药剂的添加量。系统可以实现动态显示浮选流程,生产趋势图、可以人工在线随时修
为了探讨HBV—DNA定量检测在控制宫内感染中的应用价值,我们对孕妇乙型肝炎病毒载量与母婴宫内传播的关系进行了观察,现报告如下。1对象和方法1.1对象2005-02~2007—06来我院进行
目的探讨3种不同封管溶液在静脉留置针输液患儿中的应用效果。方法选取医院2018年2月至2020年2月接收的150例应用静脉留置针输液的患儿作为研究对象,根据随机数字表法分为A组
鉴于滑模控制对系统的非线性摩擦具有较强的鲁棒性,滑模控制是解决电动舵机低速非线性问题的一个较好的控制方法。但由于趋近率参数和离散控制系统采样时间的影响,使得传统的
本文以国内零售上市公司为样本,通过测算零售企业的经营绩效评价值,比较双渠道单渠道零售企业的经营绩效状况。结果表明:近年来零售企业经营绩效总体状况良好,总体上双渠道零
在直接预浸法制备自动铺丝预浸纱过程中,展纱宽度是影响预浸纱质量的一个关键因素.借助高速数字图像传感器,研究了展纱机构中,纤维束在错位排列的展纱辊/展纱杆上的展开规律
介绍了立式离心脱水机润滑系统使用过程中存在的问题及现场进行的改进。