论文部分内容阅读
互联网技术的飞速发展,给人们的日常生活带来便利。互联网提供了新的学习、娱乐、交流、分享方式,在人们的生活中占据了重要的地位,深刻地影响了人们的生活方式。通过互联网,人们可以轻松地获取信息,自由的相互沟通和交流。在网络社区的环境中,网络用户虚拟身份的概念逐渐得到了人们的关注。现如今各种类型的网站和应用都会要求用户在使用时注册并登录账号,于是在人们的日常网络访问行为中就会产生大量的带有虚拟身份信息的数据。这些海量的虚拟账号中会包含用户的个人信息,虽然这些虚拟的身份信息表面看来和用户的真实身份并不完全一致,但是二者也会有一些潜在的联系。我们可以采用数据分析的一些手段来处理这些海量的虚拟身份,从中提取有用的信息,可以了解到用户的一些身份特征,比如性别,年龄,兴趣,爱好等。然后对于不同的使用者,我们可以根据他的网络行为来为其提供一些个性化的信息,给用户带来更好的使用体验;其次,从提供者的角度来说,则可以很大程度上减少推送信息的成本,同时提供有针对性地服务。在面对海量数据处理的问题时,传统的单个计算机的性能显然不能满足庞大的计算需求,因此我们需要借助一些高效的方法来处理数据。现如今Apache提出的Spark分布式系统在大数据处理方面得到广泛的应用,受到业界的大力追捧。本文首先简单介绍了网络用户虚拟身份的基本概念和现阶段对于虚拟身份数据挖掘的情况,其次介绍了 Spark平台的框架结构和运行机制,MapReduce的编程模型理论和HDFS的分布式存储架构;然后说明了网络虚拟身份数据挖掘的框架结构,介绍了虚拟身份数据挖掘系统的各部分模块的设计思路,其中包括虚拟身份数据的采集、存储、预处理以及数据分析;接着详细说明了对海量虚拟身份数据挖掘的算法,以及在Spark平台上的具体实现,并对实验结果做出分析和解释。