论文部分内容阅读
随着互联网的普及和计算机技术的发展,各种信息安全与网络安全风险问题也日益突出。作为整个网络安全体系的一个重要组成部分,入侵检测系统对网络数据进行分析,侦测攻击行为,保障计算机的安全。但是,目前入侵检测系统存在大量的假警报,降低了其工作效率和有效性。如何降低入侵检测系统的高误报率成为研究人员广泛关注的问题。现有入侵检测技术主要存在以下三个局限性:首先,它们需要大量的类标训练数据或领域知识来构建警报过滤模型。但是,在实际应用中,获取充足的类标训练数据相当困难;其次,由于它们多数都是离线模型,延迟对攻击行为的响应处理;最后,持续、快速和源源不断产生的数据包以及入侵模式不断地变化,使得很多模型难以发现不断变化的入侵攻击行为。上面的不足导致现有入侵检测系统具有较高的误报率。为了降低入侵检测系统误报率,本文设计一种基于半监督学习的警报过滤方法。首先,根据有限数量的类标警报训练数据,计算生成模型参数,构造朴素贝叶斯分类模型;然后利用构造的警报分类模型,对无类标训练数据进行训练和标记,得到新的类标数据;最后利用所有标记训练数据,重新计算生成模型参数,更新警报分类模型。按照以上三步进行迭代,直到类标训练数据集成员无明显改变。该方法可在利用少量类标警报数据的基础上建立比较准确的警报分类器,降低入侵检测系统误报率。由于原始的警报数据具有高维度等复杂性,给计算模型的效率和性能造成一定影响,容易导致维度灾难等问题。本文设计了一种半监督降维聚类算法。首先,基于半监督降维对原始数据进行降维,然后在降维后的空间中进行半监督聚类。降维由评估类间可分性的差别项和描述原始数据集性质的规则项两项构成。由于在降维和聚类两个过程中都充分利用了监督信息,使得算法的聚类性能得到进一步提升。在KDD CUP99数据集上对本文设计出的警报分类模型进行了实验验证。实验利用半监督降维算法对原始警报数据降维,有效地避免“维数灾难”问题、减少算法的计算复杂度;对经过降维处理后的数据利用半监督警报分类模型进行假警报过滤。实验表明本文设计的警报分类模型较传统警报分类方法具有明显的优势,可以充分利用少量的标记训练数据,取得较高的警报分类准确性,降低了误报率。