论文部分内容阅读
一个城市的供水系统中如果发生了污染事件会给社会带来巨大的损失。管网中发生的污染事件能使其中自来水的水质指标变化发生明显的异常。在供水管网中部署传感器网络能够实时获取大量的水质指标数据,这些数据可以用数据流来描述。这些数据具有数据量大,实时动态更新等特点;同时由于受需水量周期性变化的影响有明显的周期性;事件引起的水质指标的变化是随着时间逐渐体现出来的,并且会持续一定的时间;不同的事件引起的表现不同,无法用固定的模式来描述,难以预先定义。
发现监测节点产生的数据流中的异常可以作为供水管网中事件检测的基础。然而,目前基于数据流的异常检测研究不能很好地适应供水管网监测的需要。首先,许多相关的工作是基于单个数据流的,可能把一个影响了多个监测节点的事件处理成几个事件;管网中大量的监测节点使得单数据流方法增大了系统部署的难度和管理人员的检查负担。一些基于多数据流的研究使用主成分分析等方式提取数据中的模式,但结果通常难以解释。此外,一些研究使用预定义的模式在数据流中进行匹配,这种方式不适用于异常难以预定义的场合。
本文研究了如何有效地使用供水管网监测数据进行异常检测的方法,设计并实现了基于供水管网状态的异常检测系统。在本文中,首先将每一个时刻的全部监测数据概括为相应的快照模式,并根据水质指标在相邻时刻是相似的,将一个时间段内的足够相似的快照模式汇总为一个代表模式,用代表模式来表示一段时间内供水管网的比较稳定的状态。用代表模式的变化反映系统状态的变化,通过考察代表模式变化的异常程度衡量管网中水质指标变化的异常程度。并用代表模式的相似性反映系统状态的相似性。通过对代表模式进行检索,确定状态是否出现过以及出现的次数等信息。
具体来说,本文的主要工作包括下面几点:
1.数据模式的表示
在本文中,使用快照模式和代表模式来描述数据。快照模式反映水质指标在管网中的即时分布状况;代表模式表示了管网中一段比较稳定的状态。快照模式和代表模式能够直观的展示,意义容易解释。
2.代表模式检索算法
在进行代表模式的检索时主要的瓶颈是需要计算代表模式之间相似性,因此提高检索效率的途径是对代表模式相似性计算进行剪枝以减少计算次数。本文证明了代表模式相似性具有类三角不等式约束关系,并根据此性质提出基于代表模式之间的相似性上界的剪枝算法和基于代表模式相似性值的区间的剪枝算法。实验表明,剪枝算法能够有效地减少代表模式之间的相似性计算,显著提高代表模式检索算法的性能。
3.系统异常的刻画
本文设计了状态转移图这样的结构来记录系统状态及其变化,将代表模式的顺序关系和数量关系作为指标进行异常检测;同时将保存管网管理人员的决定,作为以后进行异常报警的依据。实验表明,系统状态转移规律的变化能较好地对应到异常引起的变化。
本文中设计实现的异常检测系统充分利用了供水管网水质监测数据的特征,部署方便,结果容易理解,并结合了管理人员的判断以提高系统对异常进行报警的准确度。