数据挖掘中异常点检测技术的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:a13456400000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘,就是从大规模的数据集中提取潜在的、隐含的、有价值的知识、模式或规则的过程。从大规模的数据集中挖掘的模式一般可以分为五类:关联规则、分类和预测、聚类、演变分析以及异常点检测等。 异常点数据的挖掘包括异常点数据检测和异常点数据分析两个部分。异常点数据的分析需要结合背景知识、领域知识等相关知识进行研究,本文着重研究的是异常点数据挖掘中的最关键部分——异常点数据的检测问题。 异常点数据是与数据的一般行为或模型不一致的数据,它们是数据集中与众不同的数据,这些数据并非随机偏差,而是产生于完全不同的机制。异常点数据挖掘有着广泛的应用,如欺诈检测,用异常点检测来探测不寻常的信用卡使用或者电信服务;预测市场动向;在市场分析中分析客户的流失等异常行为;或者在医疗分析中发现对多种治疗方式的不寻常的反应等等;通过对这些数据进行研究,发现不正常的行为和模式,实现异常数据挖掘功能。 本文在分析了现有的异常点检测算法的优劣后提出了一种新的异常点检测算法——基于属性的异常点检测方法;另外,为了适应某些挖掘任务及其应用领域的要求,本文还提出了一种新的多策略算法——基于异常的多策略聚集检测。本文的主要研究工作和成果如下: (1)提出了一种新的基于属性的异常点检测算法,该算法通过分析数据对象的各个属性,对数据进行异常点检测,然后利用异常标记数组对数据集进行数据分离,将异常点数据从原始数据集中移动到异常数据集中,并进行输出。实验表明,基于属性的异常检测方法是可行的,并且是高效的。 (2)提出了一种新的基于异常的多策略聚集检测算法,该算法通过先对原始数据集进行异常检测,然后分离异常数据,将检测到的异常数据转移到异常数据集中,然后对检测后数据集进行聚集检测,最后把聚集检测的结果和异常检测结果进行合并,并输出结果。实验表明,使用多策略方法进行挖掘得到的结果远远好过单一的挖掘方法。 (3)本文详细分析了异常检测在金融行业信用卡风险控制中的应用,并以两个实例说明了应用的方法。
其他文献
感知网由大量低成本、低能耗、体积小巧且具有一定计算能力和组网能力的感知设备组成,是一种以数据为核心的系统.在处理由大量感知节点产生的数据时面临一个重要的问题,即如
“知件”是本文作者所在研究团队于2005年提出的一个概念,它与硬件和软件相对应,用于刻画可独立成为IT领域可商品化的知识模块,其基本理念是封装可表示的知识,并通过统一规范的接
随着电子政务时代的到来,中国各地、各级部门的电子政务建设如火如荼的开展起来.由于Intemet的开放性,电子政务的安全问题日渐突出.电子政务安全的核心问题之一是电子公文的
从明暗恢复形状(SFS)考虑的是从单幅图象中的明暗渐变恢复出被成象物体表面的形状.已有的大多数SFS迭代算法缺乏对收敛性的分析和保证.该文提出了用于求解优化问题的阻尼振动
当前,网络已经成为社会和经济发展的强大动力,然而Internet的共享性和开放性也使之存在着严重的安全问题.随着对计算机系统弱点和入侵行为分析研究的深入,基于网络的入侵检测
人脸识别技术作为模式识别研究领域中的典型问题,在过去的三十年中一直是科研焦点.近些年,作为生物识别技术中的一个重要方向也得到了越来越多的重视,取得了巨大的进步并日臻
OCR(Optical Character Recognition)系统的中文全称是光学字符识别系统,它包括脱机识别和联机识别两种.该文研究的基于网络传真图像的版面分析属于脱机字符识别的一部分,其
大数据技术的发展,为数据资源的开发和利用带来了重要机遇和挑战,人们的各种行为方式和各种言论都以数据的形式被记录下来,因此如何对互联网中存在的群众的各种言论进行数据挖掘
纹理合成是当前计算机图形学、计算机视觉和图像处理领域的研究热点之一。纹理合成大体上可以分为纹理映射(Texture Mapping)、过程纹理合成(Procedural Texture Synthesis)和基
近几年来,Peer-to-Peer(简称P2P)作为一种新型的网络应用模式以其可扩展性、高度容错性等突出优点变得越来越流行.搜索机制作为P2P应用的核心技术,主要解决的问题是在P2P这种