基于机器学习的电商在线消费者购买行为预测研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:aquariuszh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来人们的日常消费方式发生了翻天覆地的变化。由于网络的普及,人们开始使用PC以及移动设备进行网上购物,该种方式突破了时间和地域的限制。线上商品种类繁多齐全且价格更为低廉,能够更好的满足消费者多样的需求。但海量的商品呈现给消费者的同时,也使得消费者需要花费大量的精力来挑选商品。越来越多商家为了更好的满足消费者的消费需要而对消费需求进行细化,研发满足消费者细化需求的网络购物平台并推向市场,使得网络零售市场竞争更为激烈。如何能够准确的了解消费者的消费需求,并对其提供更有针对性的垂直服务,是电商接下来的发展过程中,不得不思虑的重要一环。随着数据科技的不断进步,大数据成为近几年的新兴话题,在大数据存储计算水平上有了较大的提升,进而衍生出了区块链技术。消费者每一笔交易数据都被记录在了服务器中,进而可以通过机器学习以及各种智能计算方法分析消费者的在线行为以及交易数据等预测消费者未来的消费行为。本文采用阿里云天池大数据平台提供的来自淘宝购物平台的已经进行脱敏处理的真实数据,对消费者的行为进行统计挖掘,预测消费者会购买哪种商品。对消费者购买行为预测模型的提出分为四步:第一步是数据异常值的处理。对原始数据去除噪声、去除缺省值,并对消费者行为进行初步统计得出基本的分布情况,为进一步的特征选择和提取以及机器学习方法的选择进行准备工作。第二步是特征选取。从商品的维度构造出消费者特征、商品特征以及消费者-商品交互的行为特征三大特征群。将消费者行为按照发生的时间顺序进行连接作为交互行为序列,并通过各种变换来找到更符合数据特点的其它不同的特征组合,将其加入特征集合。而后,以正样本集大小作为参考,对负样本进行不放回的随机抽样;由于正样本在整体数据集中占比过低,将正样本全部入样。第三步对于统计过的行为数据进行筛选处理,原始数据中存在大部分操作行为过少的记录,在训练中将会影响模型的精度。该问题通过对消费者行为的定性分析来对数据进行筛选处理,删除有嫌疑冲动消费以及行为次数过少的记录,并对数据按照不同行为序列长度对数据进行分层处理。第四步是模型训练和预测。本文尝试应用循环神经网络算法(RNN)对消费者行为序列进行研究,利用N vs 1结构RNN来对行为序列行为倾向进行二分类,得出消费者行为倾向得分。而后将得分作为新的特征,将新的数据集利用朴素贝叶斯算法进行进一步的预测。将其结果和利用单一朴素贝叶斯算法建立模型所得结果进行比较。利用训练集对模型进行测试后的实验结果表明,使用RNN和贝叶斯融合后的模型预测效果更稳定,能够降低时序序列长度对预测准确度的影响;预测准确度相对单一朴素贝叶斯模型也有一定的提高,模型结果AUC值最优能够达到0.92。最后,本文提出了模型在电子商务实际交易场景中应用方向以及思路,并分析模型自身不足,对该课题进一步研究方向进行更为详细的讨论。
其他文献
云的观测在天气监测预报、维持大气辐射收支平衡以及大气化学、人工影响天气等多方面有着重要的意义,毫米波雷达在云探测方面比厘米波天气雷达和激光雷达具有显著优势,不仅可以测量云底、云顶和云的垂直分布数据,还可以获得云的雷达反射率、垂直速度等定量数据,时空分辨率高,不受晴空湍流和地物回波的影响,穿云能力强,能够探测多层云的回波,此外,地基毫米波雷达可以进行无人值守的全天候连续观测,非常适合用于云观测业务的
虽然保路运动民众的下跪和长江大学教授的下跪两事件所处时代不同,下跪者身份也有巨大的差异,但是从宪法学上讲都属民众行使请愿权。仔细对比两次超越时空的下跪事件,可以发
今年前7个月,浙江金华出入境检验检疫局辖区受理报检出口至“一带一路”沿线国家玩具产品共计469批,货值1302.97万美元,同比批次增长3.1%,金额下降14%,出口金额排名前五的国
水质环境问题已成为我国社会关注的焦点问题,近年来各种环境污染事件频发,严重影响了人们正常的社会活动和经济活动。目前对于水质监测预警的研究,许多学者采用生物式水质监
研究背景急性肺损伤(acute lung injury ALI)是临床常见难治性并发症之一,特别是在严重感染、各种休克、创伤及外科手术后易于并发,预后差,是构成死亡的主要原因之一。虽然现代
床在《金瓶梅》中不仅是实用具,而且具有象征意义。床笫之间的缠绵,折射出了明代中叶时期的民风民俗,反映了明中叶时期纵情放达的社会风尚,而床笫之间的温存又是西门庆施展计
随着中国城镇化速度的加快,学校布局随之规划调整,教育资源优化调整,农村寄宿制学校的数量加速增多。与此同时,农村寄宿制学生的生活和心理状况受到了广泛关注。通过查阅文献
目的应用医院感染信息系统,降低医院感染漏报率。方法通过医院感染信息系统对临床患者的高危因素及异常数值进行前瞻性监测,打印出异常报告,医院感染专职人员持报告到临床科
通过随机抽取15所陕西省普通高校篮球选项课现状作为研究对象,运用问卷调查法、文献资料法、数理统计法等方法做了相应的分析研究,对陕西省普通高校篮球选项课现状进行深入的
本文通过分析客户价值和客户感受价值,提出了提高客户感受价值策略。在客户价值分析中,着重分析客户价值主体、客户价值金字塔和服务创造客户价值;在客户感受价值分析中,从客户感