基于多算法融合的电子商务客户流失预测算法研究

来源 :昆明理工大学 | 被引量 : 1次 | 上传用户：areschicken

【摘要】

：

【作者】

：

刘叶

【出处】

：

昆明理工大学

【发表日期】

：

2019年01期

【关键词】

：

K-means聚类不平衡数据组合预测客户流失

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对电子商务客户流失预测中存在的客户特征多样性、流失客户比例失衡、采用单一算法易出现“过拟合”等一系列现象会影响预测效果问题,本文构建了基于多算法融合的电子商务客户流失预测算法模型。首先,为了解决客户样本在特征空间分布上的差异性,本文针对传统K-means聚类中存在的初始中心点不稳定、易陷入局部最优和难以选取最佳聚类数等一系列问题,提出了一种基于K-means聚类的改进算法。该算法首先利用K-means++从数据中选择K+m个距离尽可能远的对象作为初始聚类中心,然后利用K-mediods选择数据样本的中位数更新聚类中心,为了进一步调整聚类的稳定性,最后使用两步聚类将聚类中心聚类为K个。通过对四个常用UCI标准数据集进行仿真实验,发现对比K-means传统聚类算法,该算法的预测准确率分别提高了6.88%、1.34%、0.57%和5.18%。结果表明该算法对于改善特征空间分布上的差异性是有效的。其次,为了改善数据不平衡会影响样本分类准确率的问题,本文基于过采样法和欠采样法,提出了一种EasyEnsemble—Smote算法。该算法首先通过Smote算法,在分析少数类样本特征的基础上合成新样本,并将其添加到原数据集中。然后通过EasyEnsemble算法,根据采样倍率,将多数类划分为n个集合。最后将第一步产生的少数类样本依次加到第二步的n个集合内,分别对这n个集合进行分类,再取这n个集合的平均值。通过对三个常用UCI标准数据集进行仿真实验,利用C4.5和KNN分类算法,分别对原始数据、Smote算法处理后的数据和EasyEnsemble—Smote算法处理后的数据进行分类研究,发现后者比前二者的平均G-Mean值分别提高了6.36%、3.65%;3.80%、1.70%和5.65%、2.90%,平均F-measure值分别提高了5.45%、2.25%;4.25%、2.15%和7.40%、3.10%。结果表明改进后的算法能有效改善数据不平衡问题。然后,为了解决单一算法在小样本的非标准数据集上会出现“过拟合”问题,本文构建了基于C4.5、Logistic回归、SVM和BP神经网络的组合预测算法模型。该算法首先运用熵值法来确定各单一模型的权重,然后利用线性回归方程来组合各单一模型的预测结果,最后得到最终预测结果。通过后文对比实验来验证组合预测算法能提高模型的泛化性和普适性。最后,基于上述章节在论证了各算法的合理性及有效性的前提下,本文采用某音乐网站客户数据为实验数据集,构建基于多算法融合的电子商务客户流失预测算法模型。首先用基于K-means聚类的改进算法将电子商务客户细分为四类不同价值的客户,再利用EasyEnsemble—Smote算法对电子商务客户数据不平衡问题进行平衡处理,最后使用组合预测模型来对客户流失率进行预测。通过预测结果表明,与单一客户流失预测模型相比,基于多算法融合的电子商务客户流失预测算法模型的预测效果更好。本文提出的基于多算法融合的电子商务客户流失预测算法模型不仅对多算法融合的可行性和有效性进行了研究和验证,而且能直观地显示出客户的基本特征、准确预测客户的状态,具有很强的实用性。

其他文献

从高中生的角度看国际贸易政策与措施的研究

随着经济全球化进程的发展,我国与世界的交流也越来越密切,面临的挑战也越来越多。为了更好的推动我国经济的发展,同时推动我国周边地区经济的共赢发展,为世界经济发展做出贡

期刊

高中生的角度国际贸易政策措施

星形胶质细胞特异性敲除KLF7基因的小鼠行为学研究

Krüppel样因子(Krüppel-like factors,KLFs)是锌指转录因子家族的成员,它们参与多种细胞分子机制的调节,包括增殖、分化和凋亡等。同时,KLF7还参与感觉神经元和交感神经元的发育,促进神经元轴突的生长,维持神经系统的正常运转。已有研究证明自闭症的相关表型与KLF7的单倍剂量不足有关,这同时导致癫痫和智力障碍与发育迟缓(ID/DD)在内的一部分神经性疾病,发病机制与基因的拷

学位

Krüppel样转录因子7癫痫自闭症谱系障碍星形胶质细胞行为学

硬段组成对脂肪族水性聚氨酯性能的影响

以异佛尔酮二异氰酸酯（IPDI）、六亚甲基二异氰酸酯（HDI）、聚己二酸丁二醇酯（PBA）为主要原料合成了水性聚氨酯乳液，并通过FT-IR、DSC、粒径分析表征手段，研究了硬段组成中HDI和IPDI的

期刊

水性聚氨酯硬段脂肪族

SSR标记对籼稻品种的遗传多样性分析

利用500多对SSR标记对广陆矮4号、珍汕97B、佳辐占、明恢86和明恢63 5个籼稻亲本品种进行遗传多样性分析.结果表明,佳辐占与明恢63、明恢86、珍汕97B和广陆矮4号之间的相似系

期刊

水稻微卫星标记遗传多样性相似系数

“营改增”对A商业银行的影响及应对策略研究

改革开放以来,我国经济得到了快速发展,成为仅次于美国的全球第二大经济体。随着我国人力成本的提高,我国原先的出口优势已不复存在,同时面临房地产泡沫及钢铁等行业产能过剩

学位

银行业增值税营改增营业税

凝聚器在提高电除尘效率上的试验研究

细微颗粒物的污染日益受到广泛关注，而常规静电除尘器对微细颗粒物的去除并不是很显著。采用双极荷电凝聚技术对静电除尘器加装凝聚器，并进行中试试验。结果表明，凝聚器凝聚效果

期刊

凝聚器除尘效率细微颗粒物试验研究

基于医务人员胜任力模型的人员素质测评方法研究

医务人员素质测评是医院招聘工作的核心，而招聘工作是医院人力资源管理的基础工作，是医院人才储备的主要途径。将胜任力模型应用于人员素质测评中，可以提高测评效率，也是对人员素

期刊

人员素质测评胜任力模型招聘医务人员

CT中金属伪影的校正研究

从1972年第一台临床CT机问世以来,CT机已经成为医院中不可缺少的临床诊断设备和科研工具。CT图像不仅可以用于人类疾病的诊断,还在许多其它领域得到了应用。然而,实际的和理

学位

金属伪影迭代法投影插值法数学形态学归一化

简化距离保护整定计算方法

分析了相间距离保护和接地距离保护定值的整定计算公式 ,发现在相同的计算条件下 ,即与相同的支路、相同的阶段配合 ,接地距离定值一定小于或等于相间距离定值的规律 ,得出接

期刊

整定计算相间距离接地距离选择性灵敏度

微博谣言扰乱社会秩序

媒体的传播要防治虚假报道。微博作为一种新兴的大众信息传播平台，不能例外，也要防治虚假报道。事实上，有人利用微博，通过张冠李戴、移花接木的手法，甚至编织虚假信息，伪造微博内容

期刊

微博谣言不实信息

基于多算法融合的电子商务客户流失预测算法研究

其他学术论文