【摘 要】
:
随着数据存储技术的演进和大数据时代的来临,人类所能收集到的数据正在呈几何形式增长;然而,面对如此大量的数据,对数据分析正在变得越来越困难。传统的人工分析在面对繁杂的
论文部分内容阅读
随着数据存储技术的演进和大数据时代的来临,人类所能收集到的数据正在呈几何形式增长;然而,面对如此大量的数据,对数据分析正在变得越来越困难。传统的人工分析在面对繁杂的数据时,常有分析不准确、丢失或无法发现重要维度、极度耗时等问题伴随。数据挖掘技术,为繁杂数据的分析提供了解决之道。作为数据挖掘的一个重要工具,聚类分析在其1955年被提出之后,获得了长足的发展。其中,在最近年,海量数据分析引起了研究人员的兴趣。当聚类分析面对大型数据时,一般的处理方法是并行计算,或是对数据采样。并行计算对计算资源有较高的需求;而对数据的采样一般都会对数据的本身属性造成破坏。为了解决该问题,本文做出了如下工作:第一,提出了一种新的数据分析结构:块数据。该结构能全面反映一个对像的特征。第二,根据块数据的定义与数学意义,定义了计算块数据之间距离的公式。第三,基于定义的块数据距离,设计了一种新的层次聚类算法,实验结果验证了算法的有效性。本文的研究工作将进一步丰富聚类算法的数据适用范围,对数据挖掘和机器学习有重要的指导意义。
其他文献
随着语义网出现,提出了一个人工智能网络与人类世界结合的远景,作为文化艺术领域内的概念参考模型也经过多年的发展,产生了一些针对文化遗产、可应用在博物馆领域知识底层的本体
Internet的出现和普及使计算机应用已经全面进入Internet时代,软件构件也经历了从传统集中式应用构件到分布式的松耦合网络构件的变革。网络构件是一种崭新的分布式计算模型,是
计算机技术、传感器技术以及通信技术的不断发展,有力的推动了数据采集系统的不断发展和创新。数据采集系统在当今工业设备检测诊断中起着关键作用,本文以宝钢工业技术服务有限
近年来数据挖掘引起了信息产业界的广泛关注,其主要原因是存在大量的可用数据,并且迫切需要将这些数据转换成有用的信息和知识。通过数据挖掘,可以将知识发现的研究成果应用
生物特征识别横跨了计算机技术和生物技术两大科技领域,近年来已广泛应用于金融、公安、军事等领域。鉴于单模的身份识别技术在准确率、用户接受程度、成本等方面都有不同的缺
无线传感器网络(WSN)作为一种集成了嵌入式计算、传感器、网络和无线通信等技术的新一代通信技术,已在各个领域得到广泛的应用。其中,网络能耗问题目前是限制其发展的一项关
分形理论是现代数学的一个分支,它研究局部与整体具有自相似性的对象。这些对象的空间维数既可以是离散的也可以是连续的,既可以是整数也可以是分数。自然界中存在大量的这类对
在交通车辆的自动监控、遥感图像的分析与处理以及模式识别等领域,由于成像条件的限制,会造成所获取的图像中存在各种各样的阴影,从而影响系统分析判别的准确性,因此,阴影处理的研
成像测井是地球物理探测的重要手段,裂缝识别是成像测井的重要目标,而裂缝图像处理是影响裂缝识别效果的关键因素。 本文对基于数学形态学的裂缝图像处理方法进行了研究。介
生物信息学是一门内涵非常丰富的交叉学科,该学科的核心研究内容是使用计算机科学与技术对生物学研究的实验数据管理、统计、分析并预测,其作用已经渗透到现代生物学研究的各个