论文部分内容阅读
移动互联网时代为人们的信息交流提供了极大的便利,也在深刻地改变着人们的社交方式。分析移动用户的上网数据可以帮助我们了解用户的喜好、预测用户的行为、理解移动网络的特点并预测移动互联网的发展。随着网络带宽的提高,移动资费的下调,用户使用移动互联网产生的数据越来越多,传统的流量分析技术已无法满足要求,如何采集、存储和分析这些海量的信息是一个非常大的挑战,需要引入更高效、更可靠的面向大数据的处理方式和方法。对于海量流量数据,使用云计算技术来存储和处理数据是一个最优的解决方案,Hadoop是当前使用最为广泛的云计算技术实现框架。在此背景下,本文基于移动互联网真实海量用户数据,提出海量流量分析的云计算解决方案—基于Hadoop的流量分析系统—FLAS,以解决海量流量数据的存储和分析难题;为了优化系统和保持系统稳定运行,我们提出了Hadoop集群监控机制-ZooManager系统,以解决分布式集群的管理、监控、告警及优化等问题;为了进一步优化Hadoop集群,提出了一种在云计算环境下预测MapReduce作业运行时间与CPU资源消耗的模型,该模型可以在云计算环境下预测系统性能。在设计和实现了分析海量数据的FLAS系统和监控Hadoop集群的ZooManager系统,并从云计算资源角度优化集群后,我们将研究成果应用于实际流量分析环境中,深入研究了移动互联网流量与用户特性,以及移动互联网的复杂网络特性。本文的主要研究内容和创新点如下:(1)根据实际离线流量分析特点,使用云计算技术设计基于Hadoop的离线流量分析系统解决海量流量数据的存储和分析难题为了解决移动互联网海量用户流量数据的存储和分析难题,所提出的基于Hadoop的离线流量分析系统有以下三个特色:第一个特色为,适用于结构化/半结构化(比如流记录)类型文件的分析和处理。第二个特色为,在数据上传模块,使用自行研发的TMS(Traffic Monitoring System)来采集镜像报文数据,并生成流记录,并由UpLoader上传至HDFS。第三个特色为,在数据分析模块,为了简化代码开发流程,自行开发了一套用于表示数据分析程序的高级语言,只需要输入简单的类似SQL的语句就可以轻松完成各类流量分析工作。最后从作业效率和容错能力验证了整个系统的可用性,并总结了当前系统的瓶颈与缺陷。(2)为提高流量分析系统可用性,设计分布式集群的管理、监控、告警和优化系统,以保证基于Hadoop的流量分析系统的稳定和高效运行Hadoop集群的运营与维护对使用者来说一直是极大的挑战。为了保证集群正常、稳定和高效的运行,我们设计和开发了一个Hadoop集群监控系统—ZooManager,提供分布式集群的管理、监控、告警和优化功能,该系统可以采集基础数据,使用不同算法将其转化为直观的便于理解的指标,自行存储监控数据,分析数据,发现异常,并告警。同时还开发了展示告警和监控指标以及图形的界面供管理人员使用。监控系统可以帮助我们从资源的角度了解整个系统当前和历史的运行情况,发现资源运行瓶颈,为优化作业提出合理的建议。(3)根据云计算作业资源消耗模式,提出了一种可以在云计算环境下预测MapReduce作业运行时间与CPU资源消耗的模型,以预测云计算环境下作业的资源消耗为了进一步优化Hadoop集群和FLAS系统,研究了MapReduce的资源消耗模式,并提出了一种预估Hadoop的MapReduce作业的CPU利用率和运行时间的模型。该模型使用多项式回归的方法,可以在云计算环境下,对不同配置的MapReduce作业的CPU利用率和运行时间做出预判。我们使用不同配置条件下CPU密集型的Hadoop基准测试验证了该模型的有效性,最后使用SSE,MAPE,RMSE和R2四种评估方法计算了模型预测的精准度。(4)使用真实海量移动互联网用户数据,深入分析移动互联网流量与用户特性,从多个维度理解用户行为特征当前使用真实海量移动互联网数据分析国内移动网络流量特性的研究非常少,我们使用中国某典型城市全市连续一周的数据,所分析的数据量超过10TB,研究结果具有可靠性、实用性与真实性。从时间、流特征和用户特性三个维度开展研究。对流特征维度的用户达到访问数分布使用泊松回归模型拟合。然后,从数据使用、移动性和Web服务使用三个角度研究用户特性:在数据使用方面,重点研究了heavy user的行为;在移动性方面,将移动范围大小不同的用户分为不同的组并分别进行研究;在Web服务使用方面,将Web服务按类型分为11种类别,并分析用户的使用情况。之后对数据使用、移动性和Web服务使用三个方面进行两两关系的分析,从数据资源和无线资源消耗的角度发现了很多有意义的结论。最后对于用户使用Web服务行为进行了更深入的分析,创新性地提出“兴趣簇”概念,并使用“归一化熵”来衡量用户访问兴趣的分散程度。(5)从复杂网络角度,构建移动互联网网络结构,研究其复杂网络特性构建移动互联网的拓扑结构是网络建模的关键,之前传统线网的相关研究并不能应用于移动互联网之中,需要我们针对移动互联网开展深入的研究。本文使用移动互联网的海量和真实流数据,从复杂网络角度深入研究移动互联网及其典型应用的结构和特性,发现其一般规律并建模。首先我们根据移动互联网内用户端和服务端所承担的不同角色构造了一个用户-服务端网络拓扑结构,并分别构建了全网、浏览类应用和即时通信类应用的网络拓扑图,分析了节点度分布和节点权值分布。之后我们单独研究了浏览类不同类别网站的复杂网络特性以及BA模型特性。