高维数据流快速降维聚类算法研究

来源 :长沙理工大学 | 被引量 : 0次 | 上传用户:tanyanlong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的爆炸式增长,使得从数据中发现有价值的信息并将其转化为有组织的知识变得更加困难,于是数据挖掘应运而生。而作为数据挖掘的重要研究方法之一,聚类分析在许多领域被广泛使用。而随着信息技术的不断发展,数据流成为了一种新的数据类型,并逐渐成为主流。于是对数据流的聚类算法的研究变得热门而富有意义。高维数据流聚类算法包括降维和聚类两个部分,本文分别针对已有的降维算法和聚类算法中存在的不足,提出了自己的改进算法,并用实验证明了改进算法的优势。本文在别人的基础上,针对高维数据流子空间降维算法无法根据数据流的动态变化自动调整降维结果和需要多次扫描数据流的问题,提出了基于结构树的高维数据流子空间自适应降维算法。该算法通过改进相对熵寻找区域的相关维,继而建立起对应的子空间,并在子空间中实现聚类,确保了不同的区域对应不同的子空间。利用相对熵寻找区域相关维相对于孙玉芬的GSCDS算法更简单更自然。同时使用结构树保存划分过程相关信息,并结合回溯算法的思想,实现了对高维数据流子空间聚类算法的自适应功能,避免了算法每次面对新数据都需要重新运行子空间算法的尴尬,衰减因子的使用也避免了旧数据对聚类结果的过度影响。实验结果表明算法以较小的时间复杂度取得了较高的聚类质量。将基于网格的聚类算法应用在降维结果的聚类处理中保留了网格算法高效,自适应能力强的优点,但网格的划分导致类边缘精度低下的问题,影响了聚类质量,于是本文针对基于网格的数据流聚类算法存在的簇边缘精度低下以及需要多次扫描网格才能实现聚类的问题,提出了一种改进的数据流聚类算法。该算法主要有两个方面的改进:首先在初始聚类阶段采用从内到外、从点到面的方法实现了通过一次性扫描网格完成聚类以解决原算法中反复扫描网格造成的效率低下的问题;然后通过寻找最大密度相连集合来最大限度地区分边缘地区的噪声点和有用点,以解决原算法中边缘点缺失的问题。最后通过实验证明,本文所改进的算法对提高类边缘精度具有很好的效果,且对数据的分布具有较好的适应性。
其他文献
微网(Microgrid)为解决大规模新能源发电接入电网提供了有效途径,是目前分布式发电领域的研究热点之一。随着微网技术的不断发展,微网的电压控制和无功功率负荷的精确分配问
基层政府在灾害防御过程中,无疑是冲在一线的首要责任主体,基层政府灾害管理能力的高低直接关系到广大人民群众尤其是受灾群众的人身和财产安全,关系到一个地区生产生活发展及社会稳定。基层政府在防灾减灾工作中的重点是防御体系的建立和完善。青州市庙子镇2018年经历了“温比亚”洪水灾害后,造成的后果无疑是严重的,但针对灾情构建的预警、救援、重建机制体系,为我们提供了诸多经验和启迪,值得总结、思考和借签。本文以