【摘 要】
:
随着信息技术的高速发展,各行各业的数据仓库中存储着大量的不完备的数据。如何对这些数据进行分析是近些年来研究的热点。数据挖掘技术是大数据分析的重要工具之一,为数据分析提供了很多优秀算法。DBSCAN算法是数据挖掘中常用的一项聚类技术。因DBSCAN算法是根据数据的局部密度进行聚类的,所以其有着不受噪声点影响和能识别任何形状类的优点。DBSCAN算法过程简单,容易实现。但同样DBSCAN算法也存在着弊
论文部分内容阅读
随着信息技术的高速发展,各行各业的数据仓库中存储着大量的不完备的数据。如何对这些数据进行分析是近些年来研究的热点。数据挖掘技术是大数据分析的重要工具之一,为数据分析提供了很多优秀算法。DBSCAN算法是数据挖掘中常用的一项聚类技术。因DBSCAN算法是根据数据的局部密度进行聚类的,所以其有着不受噪声点影响和能识别任何形状类的优点。DBSCAN算法过程简单,容易实现。但同样DBSCAN算法也存在着弊端,比如:对参数敏感、在不平衡数据集上聚类效果不理想等。而在各行业的数据仓库中不平衡数据是普遍存在的。首先,本文对密度聚类算法和模糊集中隶属度的概念思想进行了阐述,并对在隶属度基础上提出的K近邻隶属度进行详细介绍。随后对密度聚类算法中常用几种算法进行了比较分析。对DBSCAN算法的缺陷进行了研究与探讨。由于DBSCAN算法使用全局统一参数,导致对不平衡数据聚类时得不到正确个数的类,从而导致聚类质量差。针对DBSCAN算法在不平衡数据集上聚类效果不理想的问题,本文提出了两种改进算法:基于局部参数的DBSCAN算法和基于K近邻隶属的DBSCAN算法。1)基于局部参数的DBSCAN算法通过使用DPC算法将数据集划分成多个不规则的数据区域,每个数据区域的大小和形状随样本的密度特征而定。然后根据每个数据区域的密度为其设置合适的参数进行局部聚类,最后再将数据区域合并成一个数据集,合并的时候需要根据合并条件判断相邻的类是否能合并,并对噪声点重新进行分类。实验结果表明,该算法与其它算法相比较聚类效果较好,特别是在不平衡率过高的数据集中具有较好的聚类效果。2)基于K近邻隶属度的DBSCAN算法是将DBSCAN算法与模糊集理论中的隶属度概念相结合所产生的新算法。该算法在对核心对象邻域内样本进行划分时,需判断核心对象邻域内样本点的K近邻隶属度是否满足要求,若K近邻隶属度小于阈值则不划分到核心对象所在类。聚类完成后,对临时噪声点再次按照邻域半径进行归并。通过在人工和真实数据集上进行对比分析发现,该算法过程简单、代码容易实现,相对于其他算法性能较好,尤其在界限模糊的数据集中和不平衡率一般的数据集中效果更好。
其他文献
中国社会是一个人情社会,受到儒家传统价值观的影响,在组织中员工大都希望给他人留下好的印象,希望自己被他人积极看待,即具有获得型印象管理动机。研究发现获得型印象管理动机能够激发组织公民行为、建言行为和员工创造力等职场积极行为,而在竞争日益激烈的当今,以独立决策、主动学习和变革动力为特征的员工积极行为已成为组织在高度不确定经营环境中生存和发展的关键要素之一,因此如何激发员工获得型印象管理动机具有重要的
有效的投资能够保障企业健康稳定的成长,并推动国民经济持续健康发展。然而我国上市公司中非效率投资行为普遍存在,这会降低企业价值,难以更好地促进经济增长,所以抑制企业的非效率投资行为成为了非常重要的研究方向。我国在2010年3月31日正式启动了融资融券交易,其中融券交易的出现标志着我国正式引入卖空机制,结束了我国证券市场一直以来的“单边市”状态,完善了中国资本市场功能。卖空机制对证券市场和公司行为的积
间歇过程普遍存在于现代工业生产当中,由于其具有高附加值、小批量、多品种、系列化等特点,在与人类息息相关的生物制药、食品加工、燃料和香料制造等领域中得到广泛应用,因此实现间歇过程高效故障监测与故障诊断对于确保生产安全、提高产品质量是至关重要。针对间歇过程普遍具有非线性、非高斯性、高度复杂性和多阶段等特性,本文提出基于MKECA间歇过程多阶段在线故障监测与基于FWA-GRNN间歇过程多阶段在线故障诊断
气凝胶性能独特,在很多高科技领域已显示出巨大的应用潜力。为拓宽气凝胶的原料来源和推进气凝胶的普及应用,利用可再生生物质制备气凝胶成为研究的热点。大豆蛋白可从榨油后的大豆残渣中提取,成本相对低廉并且具有很好的凝胶性,具有制备成气凝胶的潜力。本研究采用溶胶-凝胶法,利用醛类作为交联剂,制备出大豆蛋白凝胶,再通过真空冷冻干燥制成气凝胶;探讨了交联剂及制备工艺对大豆蛋白气凝胶孔结构(比表面积、孔容、孔型、
随着纳米科学技术的发展,空心纳米结构的制备掀起了研究者们广泛的兴趣。空心纳米材料具有独特的结构特征和物理化学性质,如表面积大、密度低和承载能力高,使其在纳米反应器、催化、能量存储、光学和生物医学等领域具有广阔的应用前景。然而,现有的合成方法存在效率低、成本高和环境不友好等问题,制约了空心纳米结构的广泛应用。针对空心纳米结构在制备过程中面临的问题和挑战,本文开发了一种新的合成方法—盐模板法,该方法绿
本文基于对已有研究成果的学习,以日照振邦药业销售人员为研究对象,通过对销售人员胜任力要素的提取和胜任力模型的构建,对日照振邦药业销售人员绩效考核体系进行了专题研究,主要研究内容如下:通过对日照振邦药业企业现状的研究,梳理出企业销售人员绩效考核现行方式、内容和结果运用等情况,总结了现行绩效考核体系的不足之处,发现企业偏重业绩考核,对如何提高个体绩效水平的深层次因素未作分析,销售人员胜任工作的要素指标
随着深度学习技术的不断发展,计算机视觉领域发生了巨大的变革。在计算机视觉中,有一种叫做图像超分辨的技术,它可以将低分辨率图像转换为高分辨率图像,从而使图像质量得到提升。图像超分辨技术在人类的生活中发挥了重要的作用,尤其是在卫星遥感、医疗图像、视频监控等方面扮演着重要的角色。然而传统的图像超分辨方法存在着图像提升效果有限、对于边缘细节信息处理不理想等问题,研究者们发现使用深度学习中的生成对抗网络做图
草方格沙障广泛应用于荒漠化的治理,该方法将麦秆、稻草等植物茎秆插入沙土内并在沙土表面铺设成方格状,通过增加地表粗糙度达到固沙目的,是一种绿色环保的重要工程方法。目前已有学者设计出“固沙车”实现了草方格的机械化铺设,但在确定圆刃刀盘插草刀工作参数时仍主要依靠人为经验。本文旨在通过试验与DEM模拟相结合的方法,测量插草过程中刀盘竖直方向的插草阻力及土壤内部土压力,初步分析“固沙车”插草阻力的影响因素,
电商平台的崛起、企业环境规制的强化和“互联网+”回收战略的实施,使以“回收再制造”为主要特征、以单一线下“销售回收”为主要渠道的传统闭环供应链逐步演化为融新产品在线销售、废旧产品回收再制造和再制造产品再销售等于一体的多电子渠道E-闭环供应链。这一改变突破了议价交易和销售回收的时空限制,消除了产品流通的信息障碍,并在一定程度上解决了废旧产品回收难的社会问题。而受平台口碑、价格差异、店铺信誉和售后服务
本试验选择高尔夫球场常用的4种肥料(隆戈尔果岭王、雷力倍绿草肥、美村生物美桂肥、BEST草坪肥)以及普通复合肥作为试验材料,分两个施肥量做盆栽试验和大田试验测试肥料的效