论文部分内容阅读
泛娱乐是现阶段互联网发展的重要特征之一,移动互联网泛娱乐化的趋势,激活了用户固有的、旺盛的娱乐社交需求。用户在产品使用过程中产生了大量日志,包含了一切行为的时间、地点、内容、互动、消费等信息,企业如何充分利用用户在其产品上留下的海量日志,运用数据挖掘技术,对用户进行深刻洞察,挖掘用户属性,揣摩用户的喜好,提取出对企业有价值的信息,以实现平台效益的最大化,也成为了工业界和学术界一个热点研究话题。带有时序信息的行为日志,又称为行为路径,蕴含了用户跳转习惯、路径偏好等有价值的信息,为了引导用户持续深入体验产品的价值,最大限度的激发用户兴趣,互联网行业普遍采用用户行为路径分析方法,该方法又可以称为行为序列模式挖掘,是一种将序列挖掘技术与用户行为路径相结合,探索行为规律,发现兴趣模式,从而获知产品使用情况,找到优化方向的分析方法。本文积极探索了行为序列模式识别技术在用户兴趣发现中的应用,从挖掘偏好路径、提取关键功能点、分析低活跃用户特征三个角度,构建了一个多层次用户兴趣分析体系,并以某泛娱乐平台的用户真实行为数据为基础,通过实验,论证了该体系的可行性,具体工作如下。首先提出了有效行为和有效序列的概念,并据此完成了数据清洗和整理,形成了供后续分析的基础数据,然后从序列长度、行为种类等角度进行了基本的数据探索和特征分析。其次,基于隐马尔可夫模型的参数估计问题,设计实验,进行了用户兴趣模式的挖掘。实验根据序列长度将基础数据进行了分组,并且为了保证模型科学训练,不被分布差异过大的数据所误导,本文还提出了针对性的分层采样方案。在结果评估阶段,基于已知行为所属场景天然属于隐藏状态的事实,设计出了隐藏状态准确率的指标,利用该指标挑选出了较优模型,进而模拟出最可能的行为路径,从这些模拟的路径中发现出了用户的路径偏好规律,并说明了这些模拟序列在兴趣发现中的实际指导意义。然后,为了解决泛娱乐平台中重要功能的发现问题,本文基于数学领域中图论的思想,提出了以行为为节点,以行为的跳转关系为边构建图的方案,将问题抽象成为图论中的关键节点发现问题。在关键节点发现的方案中,选用了三种从不同角度刻画节点重要性的指标。在实验分析阶段,利用不同序列长度的分组数据,分别进行了图形的构建和关键节点的发现,并在每个指标下得出了头部的结果,通过对比不同组别和不同指标的结果,给出了对系统起到重要作用的功能,并针对这个结果对产品提出了优化建议,证明了该场景下图模型的可行性。最后,聚焦于泛娱乐生态促活问题,设计了对比实验,将平台的低活跃用户和高活跃用户的行为序列进行对比,以高活跃的数据指标作为参考,观察指标为界面跳出率和界面退出率,提出了用于衡量两组数据差异度的指标比例差值。针对跳出率和退出率,选取比例差值大于阈值的行为界面作为实验结果。然后从实际业务出发,解释了这些界面对用户流失造成了哪些具体的影响,并给出了优化方案,最后还提出了其他针对性的的促活建议。