论文部分内容阅读
随着计算机的普及和网络技术的迅速发展,网络给人们带来利益的同时,也遭受着多种形式的攻击。入侵检测作为主动的安全防护技术,有效地阻止了各种攻击。目前数据流挖掘得到人们越来越多的重视,在数据流上建立模型,进行实时挖掘,这对于入侵检测来说很重要。数据流聚类算法是数据流挖掘的一个重点发展方向,利用数据流聚类算法建立的入侵检测模型,能够实时更新入侵检测规则库。所以将数据流聚类技术应用到入侵检测具有重大的现实意义。然而目前的数据流聚类算法存在着很多的缺点,本文以D-Stream算法为研究背景,分析了算法存在的缺点和不足,以提高入侵检测系统的检测率,降低误报率为目标,通过对算法进行改进使其更好地满足入侵检测的需要。首先,分析了当前入侵检测系统的发展现状和存在的问题、数据流挖掘的相关技术、数据流聚类算法的特点及入侵检测对数据流聚类算法的要求,为后文介绍提供了理论基础。然后,通过对D-Stream算法进行研究,给出了一种基于密度的数据流聚类算法M-Stream。针对Cosine相似度和Minkowski距离的特点,引进频度和摘要信息概念,提出了一种度量混合属性数据相似性的度量方法。针对算法的时空复杂度问题,算法采用树和哈希表来存储结点和指针。针对参数设置问题,提出了一种密度阈值函数,使数据流聚类在固定内存约束内进行。针对离线聚类问题,通过扩展邻居细胞概念来进行聚类,并通过内存抽样方法来发现演化的簇。最后,根据数据流的特点,设计了一个适合于数据流聚类的入侵检测模型,并采用后台学习的方式实时更新规则库。通过在KDD CUP1999数据集上的实验,表明了该算法优于以前的算法,达到了预期的效果。