论文部分内容阅读
近年来人们的日常消费方式发生了翻天覆地的变化。由于网络的普及,人们开始使用PC以及移动设备进行网上购物,该种方式突破了时间和地域的限制。线上商品种类繁多齐全且价格更为低廉,能够更好的满足消费者多样的需求。但海量的商品呈现给消费者的同时,也使得消费者需要花费大量的精力来挑选商品。越来越多商家为了更好的满足消费者的消费需要而对消费需求进行细化,研发满足消费者细化需求的网络购物平台并推向市场,使得网络零售市场竞争更为激烈。如何能够准确的了解消费者的消费需求,并对其提供更有针对性的垂直服务,是电商接下来的发展过程中,不得不思虑的重要一环。随着数据科技的不断进步,大数据成为近几年的新兴话题,在大数据存储计算水平上有了较大的提升,进而衍生出了区块链技术。消费者每一笔交易数据都被记录在了服务器中,进而可以通过机器学习以及各种智能计算方法分析消费者的在线行为以及交易数据等预测消费者未来的消费行为。本文采用阿里云天池大数据平台提供的来自淘宝购物平台的已经进行脱敏处理的真实数据,对消费者的行为进行统计挖掘,预测消费者会购买哪种商品。对消费者购买行为预测模型的提出分为四步:第一步是数据异常值的处理。对原始数据去除噪声、去除缺省值,并对消费者行为进行初步统计得出基本的分布情况,为进一步的特征选择和提取以及机器学习方法的选择进行准备工作。第二步是特征选取。从商品的维度构造出消费者特征、商品特征以及消费者-商品交互的行为特征三大特征群。将消费者行为按照发生的时间顺序进行连接作为交互行为序列,并通过各种变换来找到更符合数据特点的其它不同的特征组合,将其加入特征集合。而后,以正样本集大小作为参考,对负样本进行不放回的随机抽样;由于正样本在整体数据集中占比过低,将正样本全部入样。第三步对于统计过的行为数据进行筛选处理,原始数据中存在大部分操作行为过少的记录,在训练中将会影响模型的精度。该问题通过对消费者行为的定性分析来对数据进行筛选处理,删除有嫌疑冲动消费以及行为次数过少的记录,并对数据按照不同行为序列长度对数据进行分层处理。第四步是模型训练和预测。本文尝试应用循环神经网络算法(RNN)对消费者行为序列进行研究,利用N vs 1结构RNN来对行为序列行为倾向进行二分类,得出消费者行为倾向得分。而后将得分作为新的特征,将新的数据集利用朴素贝叶斯算法进行进一步的预测。将其结果和利用单一朴素贝叶斯算法建立模型所得结果进行比较。利用训练集对模型进行测试后的实验结果表明,使用RNN和贝叶斯融合后的模型预测效果更稳定,能够降低时序序列长度对预测准确度的影响;预测准确度相对单一朴素贝叶斯模型也有一定的提高,模型结果AUC值最优能够达到0.92。最后,本文提出了模型在电子商务实际交易场景中应用方向以及思路,并分析模型自身不足,对该课题进一步研究方向进行更为详细的讨论。