论文部分内容阅读
随着网络的发展,信息安全正日益成为人们关注的焦点。而且目前的入侵者不再限于最初的熟知操作系统和各种软件的专业人员,现在的Internet上到处充满着各种各样的黑客工具,只要稍有一些基本计算机和网络知识的人都可以直接利用这些工具对机器和网络进行攻击,这就使得计算机系统和网络基础设施受到更加严重的威胁。
入侵检测技术是信息安全主动防御技术的关键技术之一,它的目标是主动发现并阻止入侵行为的发生,但是不影响系统的正常运行。入侵检测技术按照其核心即分析器来看,可以分为误用检测和异常检测两类,误用检测能将观察到的现象与己知的入侵模式进行匹配从而得出是否有入侵行为的发生;异常检测建立系统的正常模式,任何偏离正常模式的行为都被认为是可疑行为从而不让其进入系统。
1998年,美国麻省理工学院林肯实验室提供了DARPA的模拟系统的入侵检测数据集,针对这种基于sniffer的数据集,很多个人和组织提出了他们各自的检测方法;在1999年,同样出现了DARPA 1999数据集,它比DARPA 1998的数据集包含的攻击类型更多,数据更丰富。佐治亚理工学院的Wenke Lee教授和哥伦比亚大学的一些教授们将DARPA 1998的数据预处理后生成了KDD CUP 1999的比赛数据,期望能获得一个最佳的分类学习算法。本文也对此进行了研究,我们的工作主要有以下几点:
● 对现有的利用DARPA组织提供的sniffer数据源进行入侵检测的方法的综述和分类,它们分别是基于数据挖掘分类学习的RIPPER分类学习算法、袋装推进C5算法和决策森林算法;基于改进的机器学习方法的LERAD算法;基于神经网络的关键字选取算法。
● 对上述算法主要从检测率和误报率上进行了比较,并指出,①对于DoS攻击,RIPPER算法和决策森林算法相对表现较好,但是检测率并不理想,并且它们对于一些没有出现在训练数据中的新攻击和一些攻击的变种基本不能检测;②对于PROBE攻击,RIPPER算法表现很好;③对于U2R攻击,基于神经网络的关键字选取算法的执行结果有较大的优势,而另外两种决策树算法对于U2R攻击的检测率非常低;④对于R2L攻击,由于只出现在测试数据中的新攻击较多,而且这些新攻击和已知攻击的变种由于利用了系统或网络的漏洞,变化较大,所以不容易检测到,RIPPER等算法的检测效果很不理想。但是对于改进的机器学习算法LERAD来说,检测结果相对较好。
● 我们先使用了C4.5算法进行了训练,对于某些攻击记录检测结果相当理想,对于
不理想的攻击记录数据,我们又提出了扩展的C4.5算法,即袋装保持C4.5算法和GT算法,并使用这两种方法进行了大量的实验,实验证明这两种方法具有检测效果好、运行代价低和训练代价低的优点。然后,我们又进一步提出了利用normal规则对于已经经过训练的攻击记录的测试和未训练过的新攻击记录的测试,最后得出结论是利用C4.5算法训练出的normal规则来做异常检测对于前一种情况是比较理想的,但是后一种情况是不理想的,同时也提出了解决的方向。