论文部分内容阅读
目前一方面随着网络规模的日益扩大和网络速度的不断提升,网络流量呈现出惊人的几何增长趋势,海量网络流量的处理面临严峻的挑战,另一方面网络上的应用种类丰富多样,大大改变了互联网的流量结构和流量模式,对网络流量进行不同层次的分析尤为重要。
本文通过利用PF_RING和libpcap技术对网络流量进行采集和存储,设计了一种新型的高速网络数据采集系统,对流量零拷贝技术进行了深入的研究和探索;同时结合在海量数据处理方面有突出优势的的云计算技术,在分布式Hadoop开源云计算平台的基础架构上运用Hive数据仓库对海量的网络流量数据进行统计分析展示,并对比研究Hive在检索速度方面和传统关系型数据库的异同;流量分析方面利用正则表达式匹配技术对应用层数据进行协议识别,设计了一种新型的对应用层数据进行协议识别和分析的框架。搭建环境实验结果表明,本文设计的流量采集分析系统在高速网络下能够降低网络丢包率和提高系统吞吐量,同时流量分析子系统的统计分析和协议识别也在工程性领域具有良好的应用前景。