基于加权k近邻的离群数据挖掘算法及并行化

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:iamwoceo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
k近邻是离群数据挖掘中的一种常用查询方法,但传统的k近邻查询方法难以适应海量高维数据集,在低维空间中表现良好的k近邻查询方法,在高维空间中均出现不同程度的恶化,尤其当数据量急剧增加时,其k近邻查询方法处理效率低,难以满足海量数据分析的实际需求。此外,大多数k近邻查询方法视所有属性同等重要,而在实际应用中,忽略属性之间的差异,将无法查询到有意义的近邻数据对象。本文针对海量高维数据集,对加权k近邻查询与离群数据挖掘算法展开深入研究。其主要研究成果如下:(1)给出了一种基于加权k近邻查询的离群数据挖掘算法WKNNOM。该算法利用信息熵度量数据集中所有属性的重要程度,并采用Z-order空间填充曲线将高维空间数据编码,映射成Z值,以此作为查询加权k近邻的依据;在兼顾每个对象与其加权k近邻个体差异基础上,利用加权k近邻,给出了一种离群数据挖掘算法;利用人工和UCI标准数据集,实验验证了该算法的可行性和准确性。(2)采用Hadoop并行计算平台,给出了一种加权k近邻的并行查询方法及离群数据并行挖掘算法WKNNOM-MR。该算法首先对输入数据随机抽样,并采用信息熵计算样本集中各个属性权值;其次在各计算节点上,利用属性权值和原始数据集生成Z-order空间填充曲线,并计算每个数据对象的Z值;再次采用LSH策略对k近邻候选集进行划分,将相近的Z值对象放置到同一计算节点,以此缓解计算节点间的数据倾斜问题并改善加权k近邻查询的准确性;然后根据每个对象与其加权k近邻之间的距离计算离群因子,给出了一种离群数据并行挖掘算法;最后在Hadoop集群上,采用人工合成、UCI标准数据集和天体光谱数据,实验验证了该算法的可扩展性和可伸缩性。
其他文献
本文应用INDO方法,对由杜鹃花科植物中提取分离的九个化合物进行了量子化学计算,得到了分子轨道波函数等多种电子结构信息,并计算了这些化合物活性部位的分子静电势,得到了静
期刊
中日战争和西方的远东绥靖政策──兼论第二次世界大战的起源与分期[以色列]夏阿龙关于第二次大战起源的研究,有一个很大的弱点,那就是存在着“欧洲中心论”。使人奇怪的是,西方学
中原突围战役简论孙少衡抗日战争胜利后不久,国民党反动派背信弃义破坏停战协定,先后对中共各解放区发动大规模进攻,位于中原地区的武汉三镇成为国民党自大后方进军华北、华东、
楚辞与荆楚饮食文化冷樵屈原的《离骚》中有如下诗句:朝饮木兰之坠露兮。夕餐秋菊之落英。苟余情其信女夸以练要兮,长咸页颔亦何伤!译诗:清晨口双双饮木兰树上滴沥的露水,傍晚食用
<正> 短短五天的延安之行,在年近古稀的黄炎培来说,是他的一个新的起点。他从延安归来以后的一系列行为,说明对中国共产党有了新的认识,对中国的光明前途有了新的信心,立场在
<正>目的:报道先天性孤立性促肾上腺皮质激素(adreno-cortico-tropic-hormone,ACTH)缺乏症(CIAD)一例并文献复习。方法:我科收治一例2岁7月余男孩,以"生后反复惊厥伴低血糖"
会议
毕加索和杜尚的艺术思想与表现对西方现代设计的形成和发展起到了极为重要的推动作用,然而他们对设计的影响又有不同,毕加索开创的抽象艺术表现形式解决了工业时代产品造型的
军事体力劳动强度分级对指导军事训练、保护劳动者健康和提高劳动效率具有重要意义。本标准规定了军事体力劳动强度的评价等级、各等级的参数值及其测定指标和方法。
利用等离子体聚合膜沉积技术和纳米金亚单层自组装技术设计传感器界面 ,用于固定羊抗人IgM抗体 ,研制了一种新的IgM压电免疫传感器 .先在石英晶振上沉积正丁胺等离子体聚合膜