【摘 要】
:
基于邻域的离群点检测算法,是离群检测的一个重要手段。但随着数据量和数据维度的爆炸式增长,导致其很难直接应用到高维数据中,而且不合理的参数选择导致算法的性能显著下降。针对上述问题,本文从减少参数对离群检测的影响入手,对基于邻域的离群检测进行了深入的研究,提出了适用于高维数据的离群点检测算法,其主要研究成果如下:(1)提出了面向离群检测的特征提取算法,FEOD算法。首先,通过迭代过程获得最优的信息熵阈
论文部分内容阅读
基于邻域的离群点检测算法,是离群检测的一个重要手段。但随着数据量和数据维度的爆炸式增长,导致其很难直接应用到高维数据中,而且不合理的参数选择导致算法的性能显著下降。针对上述问题,本文从减少参数对离群检测的影响入手,对基于邻域的离群检测进行了深入的研究,提出了适用于高维数据的离群点检测算法,其主要研究成果如下:(1)提出了面向离群检测的特征提取算法,FEOD算法。首先,通过迭代过程获得最优的信息熵阈值,来删除冗余特征,实现了数据矩阵的初步筛选;其次,引入并重新定义了类内距离和类间距离,将其作为线性投影的权重,用于提取具有良好识别能力的低维特征,提高了离群检测的效率。(2)在上述研究的基础上,提出了基于马尔科夫随机游走的两阶段离群检测算法,DLS算法。首先,采用均匀采样策略生成一系列三角剖分图,并引入移除规则得到节点的拓扑结构,从而获得由节点连通性定义的转移概率矩阵,有效减少了算法的计算量和运行时间;其次,采用加权投票原则重新定义重启向量,并将不同图上得到的平稳分布向量的平均偏差值作为离群点分数,有效的提高了算法的准确性。(3)在上述研究成果的基础上,利用QT+Pycharm作为开发工具,设计实现了一个基于特征提取的天体光谱离群检测系统,并从需求分析、系统架构以及软件功能等方面进行了详细的描述。其运行结果分析表明该系统为特殊未知天体光谱的知识发现,提供了一种有效途径。本文采用人工合成数据集和UCI数据集证明了FEOD算法和DLS算法的有效性,并与传统的算法相比具有更高的检测效率和准确率。除此之外,将其应用于天体光谱离群数据检测系统,为寻找离群的、特殊的天体提供了一种新途径。
其他文献
十三五规划以来,我国冶金制造业发展迅速,制造业创新能力有了巨大的提升。绿色、环保成为工业发展新趋势。而镁合金板材作为一种新型材料,在各个行业有着广泛的应用。因此,对镁板的质量要求也不断增高。而且,镁合金板材在制备的过程中,由于各种因素的影响,使镁板出现了波浪、中浪等板型缺陷,所以需要通过对镁合金板材进行矫直,从而获得高质量的镁板以满足各个领域的发展需求。在经典矫直理论中,构建矫直模型中往往忽略了板
随着经济的快速发展与工厂规模的扩大,起重机械在我们日常工作生活当中起到了重要作用。由于起重机械起重量与自身重量的逐渐增加、不同的接触情况,以及循环载荷工况等因素的影响,致使起重机械车轮踏面磨损状况日益严重,严重的磨耗影响着车轮踏面的使用寿命及起重机运行的安全性与平稳性。因此,对轮轨滚动接触踏面损伤的研究具有重要的理论意义与工程应用前景。本文详细的论述了车轮踏面磨损的研究历史与意义,在理论的基础上,
能源危机和环境污染是阻碍社会经济高速发展的首要问题,可再生能源的利用是解决问题的重要手段。然而可再生能源输出功率具有随机性和间歇性,为了提升系统稳定性,以微电网形式将分布式发电单元接入主网是一种有效的方式。三相逆变器并联环流抑制和功率均分控制策略是确保微电网高效稳定运行的关键技术挑战,本文以微电网中的三相逆变器为基础,重点对其并联运行环流抑制及功率均分控制策略进行研究。首先,对三相逆变器进行了数学
本文根据500KV变电站的实际工作情况,根据涉水、越障的要求选定了巡检机器人的两轮差速驱动的底盘结构。通过对底盘及轮胎进行受力分析及运动学分析,完成了驱动电机及减速器的选型,并根据续航时间要求完成了电池容量的计算。针对变电站GPS信号受干扰的问题,采用GPS与惯性导航模块经卡尔曼滤波进行数据融合,提高了导航的精度,在一定程度上解决了在GPS盲区下的定位问题。对电机的控制采用了离散滑模变结构控制算法
非正交多址接入(NOMA)技术作为第五代(5G)移动通信网络的关键技术,可以有效提高系统频谱效率,实现大带宽、广连接、低功耗的业务需求,在工业、医疗和农业等领域将得到广泛应用。然而,广连接特征使得设备信息安全传输受到严重挑战,如何确保信息的安全传输值得深入研究。物理层安全技术利用无线信道的随机特征而确保无线通信信息安全传输,成为业界关注热点。本论文考虑实际通信系统硬件设备状态,对非理想硬件条件的下
随着电子技术及材料技术的发展与进步,频率范围为2k Hz-150k Hz的超高次谐波传播特性变得更加复杂,造成了较为严重的电能质量问题,引起了广大学者的关注。本文围绕超高次谐波的产生机理及分布特性、超高次谐波检测方法、重采样方法的改进、滤波方法改进、半实物仿真对方法可行性的验证等方面展开。本文首先对低压配电网中常见的超高次谐波源进行分类,并对SPWM电路及Boost电路进行仿真及数学模型推导,分析
随着通信技术的进步,人们对无线通信的需求增长越来越快,大量无线设备接入网络。目前无线通信网络中的设备都是由电网或电池进行电能的供应,电网供能移动性较差,维护困难;电池供能相对便捷,但是需要按期进行充电或者替换电池,造成人力、物力资源的耗费。无线携能通信(SWIPT,Simultaneous Wireless Information and Power Transmission)技术的提出可以有效缓
风力发电作为优质的可再生能源,近年来在我国能源系统所占的比例也逐渐增大。风能的较大波动性给电网安全稳定运行带来巨大的挑战,准确的风电机组输出功率的预测将风能的缺点减少,更适合逐渐增加的风电并网比例,保证电力系统可以提前预防,及时调度能源。针对功率曲线拟合度差和风电功率预测准确度不高,本文提出了结合深度置信网络(DBN)和多元线性回归(MLR)的深度学习模型对风电功率进行预测。首先,针对风电机组日常
近些年,随着我国交通运输业的蓬勃发展,全国各地建设了大量的隧道。由于隧道所处外部环境复杂,且经过多年运营,大量衬砌已出现多种病害。其中,衬砌裂缝对隧道造成的危害最为严重,衬砌裂缝的检测也是隧道日常维护的主要任务。目前,人工检测是隧道衬砌裂缝检测的主要方法,然而隧道内工况条件恶劣,人工检测工作强度大、效率低下。随着人工智能在计算机视觉方面的发展,深度学习在隧道衬砌裂缝检测上的应用成为研究的热点。本文
伴随着经济水平不断地发展,健康对我们而言变得越来越重要,现在因为人体可吸入颗粒物而引起的疾病渐渐增多,人们的身体健康问题变成了备受关注的话题。特别是对于老年人和小孩子来说,更加容易引发多种疾病。在大气环境存在着许多大大小小的颗粒物质,在这些物质中有很多是人体可吸入的,其中扬尘是这些物质中非常重要的组成部分,扬尘的来源比较复杂,主要包括道路扬尘和施工扬尘。在实际应用过程中传统扬尘监测方法有很多困扰和