【摘 要】
:
随着我国互联网行业的不断发展,市场竞争日益激烈,流量红利不再,获客成本不断增加。平台若想能够良性发展,必须要有较强的用户粘性,而且一个老用户所创造的价值远高于新用户。因此准确预测出可能流失的用户,挖掘影响其流失的关键因素是十分重要的。用户流失的本质是一个二分类问题。从机器学习的角度来说,针对此类问题的解决方法可以分为两大类:基础学习模型和集成学习模型。本文选取了基础学习模型中的决策树和集成学习模型
论文部分内容阅读
随着我国互联网行业的不断发展,市场竞争日益激烈,流量红利不再,获客成本不断增加。平台若想能够良性发展,必须要有较强的用户粘性,而且一个老用户所创造的价值远高于新用户。因此准确预测出可能流失的用户,挖掘影响其流失的关键因素是十分重要的。用户流失的本质是一个二分类问题。从机器学习的角度来说,针对此类问题的解决方法可以分为两大类:基础学习模型和集成学习模型。本文选取了基础学习模型中的决策树和集成学习模型中的随机森林、XGBoost进行用户流失预测,对其原理、优缺点、适用范围以及评价标准都进行了对比分析。本文采用课程直播平台用户数据,在模型的构造过程中,首先通过描述性统计了解各个特征的特点和分布;其次对缺失值、字符型特征、不平衡样本进行处理,并根据对数据的描述性分析构造了新的衍生变量,利用卡方检验和相关性检验进行特征选择,去除一些无效特征,筛选出对流失识别最有效的特征;最终通过调参构造出最优模型来预测用户的流失。以AUC为主要评价标准对预测效果进行评估。实验结果表明,整体而言集成学习模型优于基础学习模型决策树,具体对比随机森林和XGBoost来看,XGBoost的AUC为0.83高于随机森林的0.81,但两者在精确率和召回率上各有所长,随机森林的精确率较高,但召回率低于XGBoost。以AUC为权重对三个模型的各个特征进行加权平均,最终得到影响流失的因素主要为用户行为特征和产品讲次特征,用户属性特征影响较小,这反映了用户是否流失主要取决于与用户自身行为和产品质量。
其他文献
设A= A0(?) A1(?)A2(?)是由0,1次生成的非负Z-分次代数,其中A0是自内射的.本文主要讨论了A的d-Koszul性质,引入并研究了自内射d-Koszul代数.具体地,证明了自内射d-Koszul代数
本文利用Riemann-Hilbert问题的正则化技巧研究了TD方程,并得到该方程的孤立子解.利用反谱变换方法讨论了与TD方程相联系的谱问题的谱分析性质,进而构造一个具有零点的非正则
本文主要研究一个与3×3矩阵谱问题相关的孤子方程的Darboux变换.文章从孤子方程的Lax对出发通过规范变换构造出了孤子方程的一阶Darboux变换.接着,本文以平凡解μ=0,υ=0,ω
通过分析工作在北京正负电子对撞机Ⅱ上的北京谱仪Ⅲ在(?)=3.773 GeV处采集的积分亮度为2.93 fb-1的数据,我们首次使用π0π0末态重建KSO,测定D+的半轻子衰变D+→(?)0e+e+ve
本文主要研究非线性的麦克斯韦方程的协调元逼近.首先,提出了一个线性化的Crank-Nicolson全离散格式,并导出了在L2模意义下的误差估计.其次,利用误差分裂技术,我们建立了时间
给出了Reissner-Mindlin板问题一种新的混合变分问题,不同之处在于它只含有两个未知变量,这与之前的同时求解三个变量相比,会有所简化.由于不能套入标准混合元方程模型,本文
电子亲和能(EA)是表征原子、分子或原子团簇的化学稳定性和获得电子能力的重要参数之一,具有高电子亲和能的、分子或原子团簇在化学反应中扮演着重要的角色。超卤素团簇,是由
本文的目的是研究中国企业发起的跨国并购案例中目标企业的股东所起的作用,以及股东应该如何做才能对公司有利。除此之外,本文还会回答有关中国企业为何收购西方企业,以及中
在研究相变过程中,对体系结构和动力学的研究是理解相变本质的重要途径。本文研究了二维颗粒晶体熔化过程中的结构和动力学变化。在研究二维熔化时,前人关注较多的是体系的结
近年来,随着人们对节能建筑和绿色建筑的关注,越来越多的性能分析软件应用到建筑设计中,软件作为一种计算机手段在提高建筑性能和节能方面发挥着越来越重要的作用。研究发现建筑设计在前期阶段的节能潜力更大,但是多数的软件是在设计方案成熟之后来完成能耗模拟工作,所以关于支持前期设计决策的软件的研究有积极的意义。本研究的全部工作可分为四部分内容。一,按照模拟软件的组织结构将软件分为三类:设计软件的插件、模拟引擎