论文部分内容阅读
随着互联网络的飞速发展、网络的规模及其所承载的业务类型日益增多。虽然互联网的发展给人们带来了很大的方便,但是,网络出现异常情况的机会也随之增大。如何准确、快速地检测出网络中的异常流量并做出及时、合理的响应具有重要的实际意义和应用价值。近几年,研究者们提出了基于数据挖掘的异常流量检测方法,从海量数据中自动地发现隐含的、有用的知识,形成检测规则,从而发现异常情况。针对这些内容,学者们进行了广泛的研究。首先,本论文通过广泛的调研对国内外异常流量检测与分析的技术发展和现状有了一定的了解。然后对异常流量定义及其分类、异常检测方法进行概述,并对主流的流量检测和异常流量检测技术进行详细的分析和对比,根据其原理,对其优点与不足进行说明。其次,本文对数据挖掘算法中的聚类算法进行了研究,将基于密度的DBSCAN算法用于异常流量的检测。采用改进的基于网格的DBSCAN聚类方法对离线数据集进行训练与测试,得到异常流量特征趋势,区分出哪些是正常行为,哪些是异常行为。此方法可以发现任意形状、不同大小的簇并有效地识别边界点和去除噪声点,使得聚类结果更加精准,同时执行效率也有所提高。再次,本文对异常流量分类的方法进行了研究。运用交叉熵理论来度量流量特征的分布变化,当出现异常行为时,会使得两个连续观测点之间的交叉熵突然增大。本文使用源IP地址、目的IP地址、源端口、目的端口、流大小、入度、出度、包数目8项特征属性的交叉熵来对网络异常流量进行分类。定义蠕虫病毒、DoS攻击、DDoS攻击、端口扫描攻击、异常P2P流量5种异常流量的属性特征,采用欧式距离判断攻击类型。此方法能根据异常流量的特征将异常流量分类,使得分类结果准确度有所提高。最后,本文通过离线数据集KDD 99以及基于网格的DBSCAN算法和交叉熵理论进行异常流量监测的模型建立,采用基于NetFlow形式的网络流进行流量数据的采集,对模拟实时流量进行检测与分析,为日后能迅速排查网络异常、找准异常原因、提供解决方案提供检测依据。