基于Hadoop的网络流量分析

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:fsswyjz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着宽带互联网的迅速发展,网络规模不断扩张,网络流量高速增长,网管系统所需要存储和处理的流量数据日益庞大,这对现有的系统提出了挑战。目前的网管系统不支持分布式,存在扩展性差、计算效率低下等问题,其中最大的问题是无法处理更大的流量数据,比如一年的流量数据。对于大规模数据的分析一般的解决方法是采用分布式计算,将计算任务分配到多台机器上并行处理。但传统的分布式计算在实际操作中存在诸多问题,例如怎样有效地分割输入的数据和合理分配计算任务等。因此,如果有一种通用的分布式计算模型,由底层封装任务分配、并行处理、容错支持等细节,而由用户集中精力解决分布式计算的任务表达,就能极大地简化分布式程序的设计。由Google实验室提出的Map/Reduce正是这样一种模型,开源的Hadoop为该模型提供了Java实现。Hadoop平台天然的是一个适合于海量数据存储和计算的分布式平台,它的HDFS分布式文件系统最大化利用磁盘实现海量数据的存储,具有很好的扩展性;它所实现的Map/Reduce计算模型最大化利用CPU实现对存储在HDFS上的海量数据的快速计算,从而实现对大规模流量数据的分析。   本文首先介绍了Hadoop在国内外的发展现状,明确了研究的方法和意义。在深入分析现有网管系统及其存在的问题的基础之上,针对这些问题提出了基于Hadoop平台的流量数据分析方案。本文主要研究了Hadoop平台的关键技术:HDFS分布式文件系统和Map/Reduce计算模型,以及其子项目Hive数据仓库分析工具。在掌握Hadoop相关技术的基础之上,本文重点阐述了如何实现基于Hadoop平台的流量数据分析,具体则是将Map/Reduce计算模型应用到流量分析领域中十分常见的TopN计算。通过和现有系统的性能比较,表明了网络流量数据分析的Hadoop实现较现有网管系统具有很大的优势。另外,由于Hive是为了简化Map/Reduce程序而生,本文亦尝试将Hive应用于流量数据分析。最后,本文还对Hadoop的性能进行了优化,大幅度减少Hadoop分析流量的运算时间。   最后,本文对所做的研究工作进行了总结,并提出了下一步需要改进的地方。
其他文献
企业管理,是对企业在生产经营过程中所进行的计划、组织、协调以及控制等一系列职能活动的总称.而政工工作则是一项思想性工作,它的性质相对“温和”,能够通过“润物细无声”
在开放、动态和多变的Internet计算环境下,传统的基于静态的过程模型和预定义执行路径的过程技术面临着诸多挑战。针对这一问题,本文从如何构建更为灵活的过程模型,如何表述自适
图像分类任务可以分为三种:超类图像的分类(Superordinate-level),基本类别的分类(Basic-level)和细粒度图像的分类(Subordinate-level或者Fine-grained level)。细粒度图像分
笔者通过对杭州、哈尔滨、广州、成都等国内发展较好的房产(不动产)档案馆的实地调研,并比较分析其对移交模式、检验过程、归档时间的不同界定,为房产档案馆的有序发展提供参
在当今新的形势下,中国特色社会主义的建设离不开企业的支持,实现中华民族伟大复兴的重要基础就是企业的发展.企业要长远的发展,又离不开企业党组织的政治思想指导.在新的形
随着社会的不断发展进步,不同行业的技术都在不断的创新,事业单位在社会发展的过程中,人力资源管理已经成为一项重要的因素,并且在事业单位中进行绩效考核能够更加的完善人力
在互联网时代下,企业要高度重视思想政治工作的开展.由于互联网会给企业的员工思想带来许多冲击,因此,就会进一步增加思想政治工作的难度.要充分利用互联网的优势开展思政工
在英语通用语背景 下,英语专业泛读课程教学面临新的挑战.教师必须了解英语通用语理论和其对教学的影响,探索出更加适应世界英语发展趋势以及学生多元化英语应用需求的泛读教
30岁那年,我获得文艺杂志《群像》的新人奖,以作家身份正式出道。那时候,我已经积累了一定的人生经验,虽然谈不上多么丰富,却与普通人或者说常人有些不同的意趣。通常大家都
期刊
语料库技术在英语教学和教材编写方面取得了卓越的成效,而汉语作为逐步走向国际化的语言,对外汉语教学和教材编写的重要性也开始提上了日程。本文旨在探索语料库技术在对外汉语