论文部分内容阅读
随着时代的进步和发展,数据对我们来说越来越重要。大数据的到来创新了计算机和其他行业的技术,将我们带入了大数据的时代。由于电商的发展迅速,现在很多的电商平台也使用了大数据技术或者是云计算来进行数据管理[1]。当下使用最多的大数据框架有Hadoop和Spark,通过从电商平台获得到的用户行为数据进行分析,从而猜测和推荐用户的喜好商品,满足用户的需求。因此了解用户的行为,是电商行业发展的必要条件。本文是基于大数据角度来进行分析的,数据是通过相关平台的运营商提供的真实的数据,把这些得到的数据进行处理、挖掘以及分析并且得到相对应的结果。通过分析用户的行为,运用均值聚类算法、朴素贝叶斯方法、决策树算法等方法的结合将这些数据进行整合分类,电商平台根据这些分类的数据预测出用户喜爱偏好的商品,可以更加有针对性的为用户提供相应的商品,节省彼此的时间。本论文主要研究工作如下:(1)本文从电商用户行为数据的预处理,用户行为特征数据挖掘和用户行为分析三个方面入手,对用户数据进行分类,通过分类来分别对数据进行分析,得到结果。(2)处理数据的过程中会有一些冗余的数据,首先要去除分离这些数据,以免在分析过程中浪费时间,然后对数据进行相关的操作,通过分类来判断用户的基本信息,例如:是否为该平台的新用户,是否是在该平台上有历史订单等,本文运用的框架是Spark框架,介绍了Spark的基本概念以及与其他框架的对比,此类框架的应用也是本文的一大亮点。(3)本文还运用到了一些算法的结合,例如:聚类算法,决策树算法以及基于数学分类统计算法的朴素贝叶斯方法来对数据进行处理,通过计算算出特征加权后的结果与普通数据进行对比分类。(4)最后,通过虚拟机的搭建,Spark框架环境的搭建,对电商平台的用户行为数据进行分析,得到相对应的用户购买信息数据,根据这些数据分析用户的购买意向。