基于密度的离群数据挖掘方法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户：heishenggg

【摘要】

：

离群数据挖掘作为数据挖掘研究领域的重要课题，目的是可以从海量复杂的数据中挖掘到少量与大部分数据最不一致的数据，这些异常数据常常包含着重要的信息。目前研究者已经提出许

【作者】

：

许琳

【机构】

：

山东科技大学

【出处】

：

山东科技大学

【发表日期】

：

2016年期

【关键词】

：

离群数据挖掘 INFLOF算法 LOF算法强力搜索算法运行效率

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

离群数据挖掘作为数据挖掘研究领域的重要课题，目的是可以从海量复杂的数据中挖掘到少量与大部分数据最不一致的数据，这些异常数据常常包含着重要的信息。目前研究者已经提出许多离群数据挖掘方法，论文主要对基于密度的离群数据挖掘方法进行研究，并针对传统方法的缺陷进行改进，创新研究主要体现在三个方面。　　第一，基于影响空间的局部离群因子(Influenced Local Outlier Factor，简称INFLOF)方法是经典的基于密度的离群数据挖掘方法，该方法需要计算每个数据点的离群因子值，由于正常点多于离群点，这样会产生大量的中间结果从而影响算法效率。针对上述INFLOF算法的缺陷，新算法先通过K均值算法聚类后，把类半径以内的非离群点删除，对剩余数据再调用INFLOF方法进行离群点的挖掘，从而提高离群点的挖掘效率。因此，本文将K均值算法和INFLOF算法相结合，提出了基于K均值和影响空间的局部离群因子(K-means and Influenced Local Outlier Factor，简称K-INFLOF)方法。通过模拟数据集和真实数据集实验，将K-INFLOF算法和INFLOF算法进行对比，验证了新算法的运行效率更高。　　第二，强力搜索(Powerful Search)算法是传统的离群时间序列数据挖掘算法，该算法不能挖掘局部离群时间序列，而局部离群因子(Local Outlier Factor，简称LOF)算法作为基于密度的离群数据挖掘算法，可以有效挖掘局部离群点。因此，本文在强力搜索算法的基础上融合了LOF算法中局部离群因子的思想，定义了离群时间序列因子的概念，提出了基于密度的离群时间序列数据挖掘(Outlier Time series mining Based on Density，简称OTBD)方法。通过模拟数据集验证了OTBD算法的有效性，并通过真实数据集将OTBD算法与强力搜索算法进行对比，验证了OTBD算法可以挖掘到局部离群时间序列。　　第三，将K-INFLOF算法应用于NBA最新赛季篮球运动员技术数据，通过与INFLOF算法对比，验证了K-INFLOF算法运行效率更高；通过与LOF算法对比，验证K-INFLOF算法可以挖掘到更多类型的球员，最后分析了挖掘到的球员产生离群性的原因。将OTBD算法应用于股票市场，通过与强力搜索算法对比，验证OTBD算法可以挖掘到更多离群时间序列，并将离群序列定位到股票波动图，结合当时背景对股票产生离群的原因进行了解释。　　最后，对论文所做工作进行了总结，并提出进一步研究的方向。

其他文献

经济增长的资源障碍研究

经济增长是一个复杂的过程。自然资源,特别是所谓的不可更新资源,对经济增长有着非凡的意义。但是资源不总是“恩物”,它会通过各种渠道对经济增长产生障碍作用。　　本文

学位

浅议施工防段土建工程计量的监理控制

通过在飞来峡水利枢纽工程建设中多年积累的认识，介绍施工阶段土建工程计量监控的管理措施；浅述施工阶段土建工程计量的内容、原则、方法和细则；阐述施工阶段土建工程计量与三控

期刊

土建工程量监理控制

我国产业投资基金发展研究

随着我国资本市场的改革发展不断向前推进，产业投资基金的存在将能够为投资者提供可供选择的投资产品以及能够为企业提供可供选择的融资渠道，因此，产业投资基金在金融市场的运作

学位

香菇免割保水膜袋栽培的应用分析

中国作为世界香菇生产和消费大国,其栽培规模与种植技术对香菇的生产与发展有着深刻的影响。对于免割保水膜袋新型香菇栽培技术,很多菇农持犹豫、观望态度。根据荆门、襄阳等

期刊

香菇保水膜袋栽培应用分析

基于Pair-Copula-EGARCH-CVaR的期货组合动态保证金模型与实证研究

保证金制度是随期货诞生开始就一直存在，它是期货市场的最重要的的制度之一，真因为这些特点，所以区分了与其他交易市场（如股票）的不同。保证金是用于给期货交易提供相应的担保，所以

学位

期货市场保证金制度动态模型对数收益率蒙特卡洛法

韩国房地产金融发展研究及其政策启示——以ABS/MBS/REITs/房地产基金为主

房地产金融问题事关一个国家的房地产业乃至整个经济的持续稳定发展。随着房地产证券化、房地产间接投资等房地产金融产品与手段的陆续登场,资本市场与房地产市场的互动性与

学位

脐血输注对白血病患者化疗后血象的影响

联合化疗仍是目前治疗白血病的重要手段，但化疗的最大副作用是抑制骨问，引发外周白细胞和血小板数的明显降低，可导致严重感染和出血．危及生命。因此．恢复和维持正常的外周血象对化

期刊

脐血白血病血象脐血来源造血系统祖细胞增殖造血功能血小板数外周白细胞白血病化疗

中国商业银行个人网上银行发展研究

20世纪90年代，互联网技术在银行业的应用促成了个人网上银行的诞生。个人网上银行的出现给银行业带来了巨大的影响，不仅提高了银行的服务质量，降低了银行成本，而且还改变了银行传

学位

商业银行个人网上银行销售渠道

扩张型心肌病13例误诊分析

扩张型心肌病因其临床表现多种多样,临床上有时难以鉴别,以致误漏诊时有发生。本文就13例扩张型心肌病误诊原因进行讨论。 Dilated cardiomyopathy due to its diverse cli

期刊

扩张型心肌病误漏诊多普勒超声检查心衰高血压病血压心腔原发性心肌病持续性高血压心力衰竭

黄系獭兔与本地獭兔杂交F1生产性能研究报告

该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥

期刊

黄系獭兔低生产性能獭兔杂交后代生产性能

基于密度的离群数据挖掘方法研究

其他学术论文