论文部分内容阅读
离群数据挖掘作为数据挖掘研究领域的重要课题,目的是可以从海量复杂的数据中挖掘到少量与大部分数据最不一致的数据,这些异常数据常常包含着重要的信息。目前研究者已经提出许多离群数据挖掘方法,论文主要对基于密度的离群数据挖掘方法进行研究,并针对传统方法的缺陷进行改进,创新研究主要体现在三个方面。 第一,基于影响空间的局部离群因子(Influenced Local Outlier Factor,简称INFLOF)方法是经典的基于密度的离群数据挖掘方法,该方法需要计算每个数据点的离群因子值,由于正常点多于离群点,这样会产生大量的中间结果从而影响算法效率。针对上述INFLOF算法的缺陷,新算法先通过K均值算法聚类后,把类半径以内的非离群点删除,对剩余数据再调用INFLOF方法进行离群点的挖掘,从而提高离群点的挖掘效率。因此,本文将K均值算法和INFLOF算法相结合,提出了基于K均值和影响空间的局部离群因子(K-means and Influenced Local Outlier Factor,简称K-INFLOF)方法。通过模拟数据集和真实数据集实验,将K-INFLOF算法和INFLOF算法进行对比,验证了新算法的运行效率更高。 第二,强力搜索(Powerful Search)算法是传统的离群时间序列数据挖掘算法,该算法不能挖掘局部离群时间序列,而局部离群因子(Local Outlier Factor,简称LOF)算法作为基于密度的离群数据挖掘算法,可以有效挖掘局部离群点。因此,本文在强力搜索算法的基础上融合了LOF算法中局部离群因子的思想,定义了离群时间序列因子的概念,提出了基于密度的离群时间序列数据挖掘(Outlier Time series mining Based on Density,简称OTBD)方法。通过模拟数据集验证了OTBD算法的有效性,并通过真实数据集将OTBD算法与强力搜索算法进行对比,验证了OTBD算法可以挖掘到局部离群时间序列。 第三,将K-INFLOF算法应用于NBA最新赛季篮球运动员技术数据,通过与INFLOF算法对比,验证了K-INFLOF算法运行效率更高;通过与LOF算法对比,验证K-INFLOF算法可以挖掘到更多类型的球员,最后分析了挖掘到的球员产生离群性的原因。将OTBD算法应用于股票市场,通过与强力搜索算法对比,验证OTBD算法可以挖掘到更多离群时间序列,并将离群序列定位到股票波动图,结合当时背景对股票产生离群的原因进行了解释。 最后,对论文所做工作进行了总结,并提出进一步研究的方向。