论文部分内容阅读
针对电子商务客户流失预测中存在的客户特征多样性、流失客户比例失衡、采用单一算法易出现“过拟合”等一系列现象会影响预测效果问题,本文构建了基于多算法融合的电子商务客户流失预测算法模型。首先,为了解决客户样本在特征空间分布上的差异性,本文针对传统K-means聚类中存在的初始中心点不稳定、易陷入局部最优和难以选取最佳聚类数等一系列问题,提出了一种基于K-means聚类的改进算法。该算法首先利用K-means++从数据中选择K+m个距离尽可能远的对象作为初始聚类中心,然后利用K-mediods选择数据样本的中位数更新聚类中心,为了进一步调整聚类的稳定性,最后使用两步聚类将聚类中心聚类为K个。通过对四个常用UCI标准数据集进行仿真实验,发现对比K-means传统聚类算法,该算法的预测准确率分别提高了6.88%、1.34%、0.57%和5.18%。结果表明该算法对于改善特征空间分布上的差异性是有效的。其次,为了改善数据不平衡会影响样本分类准确率的问题,本文基于过采样法和欠采样法,提出了一种EasyEnsemble—Smote算法。该算法首先通过Smote算法,在分析少数类样本特征的基础上合成新样本,并将其添加到原数据集中。然后通过EasyEnsemble算法,根据采样倍率,将多数类划分为n个集合。最后将第一步产生的少数类样本依次加到第二步的n个集合内,分别对这n个集合进行分类,再取这n个集合的平均值。通过对三个常用UCI标准数据集进行仿真实验,利用C4.5和KNN分类算法,分别对原始数据、Smote算法处理后的数据和EasyEnsemble—Smote算法处理后的数据进行分类研究,发现后者比前二者的平均G-Mean值分别提高了6.36%、3.65%;3.80%、1.70%和5.65%、2.90%,平均F-measure值分别提高了5.45%、2.25%;4.25%、2.15%和7.40%、3.10%。结果表明改进后的算法能有效改善数据不平衡问题。然后,为了解决单一算法在小样本的非标准数据集上会出现“过拟合”问题,本文构建了基于C4.5、Logistic回归、SVM和BP神经网络的组合预测算法模型。该算法首先运用熵值法来确定各单一模型的权重,然后利用线性回归方程来组合各单一模型的预测结果,最后得到最终预测结果。通过后文对比实验来验证组合预测算法能提高模型的泛化性和普适性。最后,基于上述章节在论证了各算法的合理性及有效性的前提下,本文采用某音乐网站客户数据为实验数据集,构建基于多算法融合的电子商务客户流失预测算法模型。首先用基于K-means聚类的改进算法将电子商务客户细分为四类不同价值的客户,再利用EasyEnsemble—Smote算法对电子商务客户数据不平衡问题进行平衡处理,最后使用组合预测模型来对客户流失率进行预测。通过预测结果表明,与单一客户流失预测模型相比,基于多算法融合的电子商务客户流失预测算法模型的预测效果更好。本文提出的基于多算法融合的电子商务客户流失预测算法模型不仅对多算法融合的可行性和有效性进行了研究和验证,而且能直观地显示出客户的基本特征、准确预测客户的状态,具有很强的实用性。