基于半监督学习的假警报过滤研究

来源 :江苏科技大学 | 被引量 : 2次 | 上传用户:ywd56649
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和计算机技术的发展,各种信息安全与网络安全风险问题也日益突出。作为整个网络安全体系的一个重要组成部分,入侵检测系统对网络数据进行分析,侦测攻击行为,保障计算机的安全。但是,目前入侵检测系统存在大量的假警报,降低了其工作效率和有效性。如何降低入侵检测系统的高误报率成为研究人员广泛关注的问题。现有入侵检测技术主要存在以下三个局限性:首先,它们需要大量的类标训练数据或领域知识来构建警报过滤模型。但是,在实际应用中,获取充足的类标训练数据相当困难;其次,由于它们多数都是离线模型,延迟对攻击行为的响应处理;最后,持续、快速和源源不断产生的数据包以及入侵模式不断地变化,使得很多模型难以发现不断变化的入侵攻击行为。上面的不足导致现有入侵检测系统具有较高的误报率。为了降低入侵检测系统误报率,本文设计一种基于半监督学习的警报过滤方法。首先,根据有限数量的类标警报训练数据,计算生成模型参数,构造朴素贝叶斯分类模型;然后利用构造的警报分类模型,对无类标训练数据进行训练和标记,得到新的类标数据;最后利用所有标记训练数据,重新计算生成模型参数,更新警报分类模型。按照以上三步进行迭代,直到类标训练数据集成员无明显改变。该方法可在利用少量类标警报数据的基础上建立比较准确的警报分类器,降低入侵检测系统误报率。由于原始的警报数据具有高维度等复杂性,给计算模型的效率和性能造成一定影响,容易导致维度灾难等问题。本文设计了一种半监督降维聚类算法。首先,基于半监督降维对原始数据进行降维,然后在降维后的空间中进行半监督聚类。降维由评估类间可分性的差别项和描述原始数据集性质的规则项两项构成。由于在降维和聚类两个过程中都充分利用了监督信息,使得算法的聚类性能得到进一步提升。在KDD CUP99数据集上对本文设计出的警报分类模型进行了实验验证。实验利用半监督降维算法对原始警报数据降维,有效地避免“维数灾难”问题、减少算法的计算复杂度;对经过降维处理后的数据利用半监督警报分类模型进行假警报过滤。实验表明本文设计的警报分类模型较传统警报分类方法具有明显的优势,可以充分利用少量的标记训练数据,取得较高的警报分类准确性,降低了误报率。
其他文献
经过对车载影音/导航综合系统在国内外行业以及高校的研究状态、技术特点进行分析,研究了基于嵌入式技术为核心的内嵌式车载影音/导航系统的构成、实现原理,结合项目实际需求对
传统的基于内容图像检索往往是提取图像的底层视觉纹理、颜色和形状等特征,然后利用特征距离评价并排序输出结果,然而,这种方法往往达不到人们的要求,存在人类与机器理解差异
众多公钥密码体制中,椭圆曲线密码(ECC, Elliptic Curve Cryptography)由于单比特安全性强,计算速度快,曲线资源丰富等优势,得到广大研究者的关注。作为ECC最核心最耗时的操
随着高校信息化建设的步伐,手工排课方式已经逐步被计算机自动排课所代替,本论文采用C#2003和MS SQLSERVE等软件为开发工具,通过对排课算法解决方案的论证,设计开发了高等院
随着云存储系统的快速发展,需要存储和管理的数据越来越多,这对作为云存储系统重要支撑之一的分布式文件系统提出了更高的要求;高效地管理元数据是提高分布式文件系统性能的
基于卫星的传统资源共享系统由于缺乏订阅服务和操作不便等原因,导致其已经无法再满足农牧民对内容的需求。可基于互联网的内容中心网络(Content Centric Network,CCN)技术在
随着21世纪信息技术的飞速发展,中文手写签名的真伪鉴别在很多领域起着重要作用。为了提高离线签名真伪鉴别方法的准确率和鲁棒性,我们提出了一种新的结合签名稳定性分析的混
随着计算机网络技术与数据库技术的飞速发展,特别是农业信息化建设的大力推进,农业数据资源的Web共享已成为一个热门话题。当前大多数农业数据资源以不同形式存储于各类数据库
图像检索是图像处理和计算机视觉领域的研究热点之一。基于内容的图像检索技术从图像自身的内容特征出发,自动化地检索出满足用户需要的图像,已经成为一个非常活跃的研究领域
无线传感网(Wireless Sensor Network,简称WSN)中,受限于体积与成本,传感器节点的计算能力、存储容量、能量等诸多硬件资源相对匮乏,通常只搭载一种复杂度较低的路由协议以支