论文部分内容阅读
目前,互联网点播视频产业发展突飞猛进,视频服务提供商之间竞争的日益激烈。视频服务提供商一方面需要改善用户体验,吸引更多用户;另一方面需要优化资源配置,最大限度利用系统资源。为此需要了解用户生命期行为和视频活跃度演进规律,但是目前针对视频点播系统的此类研究还十分匮乏。因此本文基于PPTV视频点播系统的大规模观看数据,利用机器学习和数据挖掘的方法,通过用户早期行为,预测其生命周期,并通过视频的早期点击量和视频固有属性信息,预测视频活跃期模式。本文的具体贡献主要有如下几个方面。(1)本文基于PPTV大规模数据分析了用户在其生命周期内的观看行为。我们发现用户的行为特征量,例如访问频率、观影数目和视频观看完成率在用户生命周期内都随时间增长呈现“倒U型”轨迹。本文提出了一个新的兴趣特征:流行话题偏好,表示用户对流行视频的偏好程度。我们发现用户的流行话题偏好随着时间的增长而减小,这说明用户在系统中停留的时间越长,她观看的流行视频就越少。(2)本文基于机器学习的方法,根据用户第一周的行为和兴趣特征量预测用户的生命周期。实验结果表明,加入本文提出的流行话题偏好特征后,模型的F1值可以提升8.8%,达到0.74;与用户生命周期最相关的特征是用户的访问频率,流行话题偏好比观看完成率更重要。(3)本文发现大部分视频都符合两种活跃期模式:“尖峰型”和“非尖峰型”。“尖峰型”的视频可能只会活跃短短几周而“非尖峰型”视频会活跃很长时间。为了准确地将视频分为上述两种模式,本文提出了一个有效的度量指标:活跃期,也就是视频的活跃时长。不同于视频生命周期,本文结合波峰波谷的计算,提出了一种新的计算视频活跃期的方法。(4)本文根据视频前7天的点击量、视频评分分值、评分人数和视频类型信息,预测视频活跃期模式。实验结果表明模型F1值高达0.85,相比只利用视频前7天的点击量提升了9%。作为视频活跃期模式预测的一个应用,本文提出了基于视频活跃期模式的缓存替换策略。实验结果表明本文的缓存替换策略可以在提升命中率的前提下减少缓存替换次数,最大可以降低4.8%。