论文部分内容阅读
聚类是机器学习领域中的一个重要研究方向,由于其可自动地探测数据中的簇团结构而被广泛用于图像处理、生物信息学、中文信息处理、社会网络、智能医疗等研究领域,也被广泛应用于各行各业的生产实践和社会管理的数据挖掘中.目前,针对静态数据的聚类模型和算法已经得到了深入的研究,然而在诸如证券交易、实时监控、电子商务、社交媒体等领域中,会连续产生时间上有序的、快速到达的、规模巨大的和潜在无限的数据流.许多实际应用要求挖掘数据流中的簇团结构、及时捕获簇团结构的模式变化、以及探测其中的异常数据.鉴于数据流的时序性、快速到达、大规模和潜在无限等特点,如何利用有限的存储空间,快速、准确地探明数据流中隐藏的簇团模式、概念漂移及模式演化已成为聚类学习的一个重要研究内容.相对于数值型数据流而言,符号型数据流聚类是一个较新的研究领域.符号数据分析的主要困难之一在于以恰当的方式度量数据之间的相似性或者不相似性,相应的聚类模型和算法与数值数据流也有较大的不同,且相对来说也更为复杂.近年来,针对符号数据流的聚类分析引起了研究者们的广泛关注.本文以符号数据流为研究对象,旨在构建符合此类数据特点的聚类分析框架.针对该框架所涉及到的数据标签、概念漂移检测、数据流演化和异常点检测的相关模型与算法进行了系统研究.本文的主要研究成果有:(1)提出了一种基于增量熵的符号数据标签方法.该方法利用增量熵来度量未标记数据加入不同的簇所引起的簇结构的变化程度,用以刻画一个数据点和一个数据簇的相似性.提出的“点-簇”不相似性度量克服了以往基于属性值分布的“点-簇”相似性度量不能发现数据点融入到不同簇中所引起的簇结构的变化程度的不足.该方法还可自适应地动态调整数据标签过程中异常点识别的阂值.符号数据流和增量符号数据上的对比实验表明,提出的方法提高了数据标签的精度,也为符号数据流聚类精度的提高奠定了基础.(2)提出了一种基于簇分布相似性度量的符号数据流概念漂移检测方法.该方法定义了一种基于样本标准差的两个簇分布的相似性度量,给出了簇分布相似性度量的密度函数的近似求解方法,并在此基础上,提出了一种基于置信水平的簇分布变化阈值确定方法.所提出的概念漂移检测算法可以检测新窗口中异常点过多、以及新旧窗口簇分布变化较大两种情形导致的概念漂移.实验结果表明,提出的方法能有效地检测符号数据流聚类过程中的概念漂移.(3)提出了一种基于增量熵的“簇-簇”不相似性度量,该度量利用一个簇加入不同簇中所引起的信息熵的变化程度来刻画两个簇的相似性,克服了已有基于属性值分布“簇-簇”相似性度量不能动态地捕捉簇中数据混合后引起的簇结构的变化这一不足.此外,还给出了一种综合考虑一个簇的属性值在本簇以及其它簇中分布情况的簇代表元定义.并在此基础上,提出了一个符号数据流演化分析算法,该算法可直观地展示数据流中簇模式的演化过程.(4)提出了一种基于符号数据流演化聚类的网络入侵检测方法.该方法将误用检测模式与异常检测模式相结合,通过初始聚类建立由正常模式和异常模式构成的知识库,当网络访问数据流发生演化时,通过重新聚类来更新知识库以反映网络访问的最近状态,并基于增量熵度量新到达的网络访问数据与正常模式和异常模式的相似性,实时判定网络访问的合法性.整个学习和检测过程只扫描网络访问数据一次.实验结果表明该方法在实时性和适应性方面更具优势.本文的研究工作进一步丰富了符号数据流分析领域的研究成果,为相关领域的流数据挖掘和知识发现提供了可资借鉴的技术支撑.