论文部分内容阅读
数据挖掘,就是从大规模的数据集中提取潜在的、隐含的、有价值的知识、模式或规则的过程。从大规模的数据集中挖掘的模式一般可以分为五类:关联规则、分类和预测、聚类、演变分析以及异常点检测等。
异常点数据的挖掘包括异常点数据检测和异常点数据分析两个部分。异常点数据的分析需要结合背景知识、领域知识等相关知识进行研究,本文着重研究的是异常点数据挖掘中的最关键部分——异常点数据的检测问题。
异常点数据是与数据的一般行为或模型不一致的数据,它们是数据集中与众不同的数据,这些数据并非随机偏差,而是产生于完全不同的机制。异常点数据挖掘有着广泛的应用,如欺诈检测,用异常点检测来探测不寻常的信用卡使用或者电信服务;预测市场动向;在市场分析中分析客户的流失等异常行为;或者在医疗分析中发现对多种治疗方式的不寻常的反应等等;通过对这些数据进行研究,发现不正常的行为和模式,实现异常数据挖掘功能。
本文在分析了现有的异常点检测算法的优劣后提出了一种新的异常点检测算法——基于属性的异常点检测方法;另外,为了适应某些挖掘任务及其应用领域的要求,本文还提出了一种新的多策略算法——基于异常的多策略聚集检测。本文的主要研究工作和成果如下:
(1)提出了一种新的基于属性的异常点检测算法,该算法通过分析数据对象的各个属性,对数据进行异常点检测,然后利用异常标记数组对数据集进行数据分离,将异常点数据从原始数据集中移动到异常数据集中,并进行输出。实验表明,基于属性的异常检测方法是可行的,并且是高效的。
(2)提出了一种新的基于异常的多策略聚集检测算法,该算法通过先对原始数据集进行异常检测,然后分离异常数据,将检测到的异常数据转移到异常数据集中,然后对检测后数据集进行聚集检测,最后把聚集检测的结果和异常检测结果进行合并,并输出结果。实验表明,使用多策略方法进行挖掘得到的结果远远好过单一的挖掘方法。
(3)本文详细分析了异常检测在金融行业信用卡风险控制中的应用,并以两个实例说明了应用的方法。