论文部分内容阅读
异常检测是数据挖掘领域的研究方向之一。最初在对数据的统计分析中,样本数据中存在一些数据点,它们很明显地偏离大多数样本数据的分布区域,这些点被称为例外。例外数据可能是由于一些监测或统计上的错误造成的,因此为了使数据更可靠,需要将这些例外数据从样本数据中剔出。随着更多学者加入到例外的研究中来,例外的概念也随着不同领域的共同研究而被扩展。例外数据不单单是监测或统计上的错误,还有可能是另一种机制产生的数据,这些数据因为与众不同而更加引起研究者的注意。不同领域的研究者提出不同的名称来描述例外监测,如:欺骗行为检测,入侵监测,异常监测等。
从统计角度来看,人们把低概率发生的事件看成异常,以区分正常。传统的统计方法发现异常需要假设数据所满足的概率模型,并且不能很好地同时支持连续数据和分类数据。我们认为人们对正常和异常的划分是一种思维概念的划分,本文基于模糊统计方法,把事件发生的概率与隶属度联系起来,得到数据对“正常”的隶属函数和对“异常”的隶属函数。本文的方法不假设数据的概率模型,也能同时支持连续数据和分类数据。对于传统的统计方法需要设定阈值来划分正常和异常,本文采取正常隶属函数与异常隶属函数的交点来划分正常和异常,从而避免寻找一个合适的阈值的问题。实验表明本文方法有很好的检测率。
挖掘不同数据间发生异常的依赖关系也很有必要,不同数据间异常的依赖关系,能为我们提供决策支持和预测推断。目前已有的工作使用关联规则来挖掘数据间异常的依赖关系,但不能进行推理。贝叶斯网是不确定性知识表示和推理的有效工具。在异常发现的基础上,本文基于贝叶斯网挖掘不同数据间正常和异常的概率依赖关系,描述这样关系的贝叶斯网称为“一般/特殊贝叶斯网”。我们将能引起系统整体状态变化的因素称为系统中的关键影响因素,发现关键影响因素有着重要意义,在监控中,关键影响因素是需要重点监控的对象,或者是对系统调整的首要对象。把贝叶斯网看作一个系统,系统中的每个因素就是贝叶斯网的一个节点,我们对一般/特殊贝叶斯网进行推理,并基于一种距离度量公式,将概率推理关系构建成描述节点间的影响特征强度,通过一个阈值来划分影响特征强度,从而发现关键影响因素集合。