基于最小生成树的大规模数据分类模型及其MapReduce实现(英文)

来源 :集成技术 | 被引量 : 0次 | 上传用户:farzision
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的快速增长,为我们提供了更多的信息,然而,也对传统信息获取技术提出了挑战。这篇论文提出了MCMM算法,它是基于MapReduce的大规模数据分类模型的最小生成树(MST)的算法。它可以看做是介于传统的KNN方法和基于聚类分类方法之间的模型,旨在克服这两种方法的不足并能处理大规模的数据。在这一模型中,训练集作为有权重的无向完全图来处理。顶点是对象,两点之间边的权重是对象间的距离。这一距离,不同于欧几里得距离,它是一个特定的距离度量。这样,可以找到图中最小生成树集,其中,图中每棵树代表一个类。为了降低时间复杂度,提取了每棵树中最具代表性的点来代表该树。这些压缩了的点集,可以通过计算无标签对象和它们之间的距离,来进行分类。MCMM模型基于MapReduce实现并且部署在Hadoop平台。该模型可扩展处理大规模的数据,是因为Hadoop支持数据密集分布应用,并且这些应用可以和数以千计的节点和数据一起运作。另外,MapReduce和Hadoop能在由商品机组成的集群上很好的运行。MCMM模型使用云平台并且通过使用MapReduce和Hadoop进行云计算是有益处的。实验采用的数据集包括从UCI数据库得到的真实数据和一些模拟数据,实验使用了4000个集群。实验表明,MCMM模型在精确度和扩展性上优于KNN和其他一些经常使用的基础分类方法。 The rapid growth of data provides us with more information, however, but also poses challenges to traditional access to information technologies. This paper presents the MCMM algorithm, which is an algorithm of minimum spanning tree (MST) based on MapReduce’s large-scale data classification model. It can be regarded as a model between the traditional KNN method and the clustering-based classification method to overcome the shortcomings of both methods and to deal with large-scale data. In this model, the training set is treated as a weighted undirected complete graph. Vertex is the object, the weight between two points is the distance between the objects. This distance, unlike the Euclidean distance, is a measure of distance. In this way, you can find the minimum spanning tree set in the graph, where each tree in the graph represents a class. To reduce the time complexity, the most representative point in each tree is extracted to represent the tree. These compressed sets of points can be categorized by calculating the distance between unlabeled objects and their distance. The MCMM model is based on MapReduce and deployed on the Hadoop platform. The model scales to large-scale data because Hadoop supports data-intensive distributed applications and these applications can work with thousands of nodes and data. In addition, MapReduce and Hadoop can run well on a cluster of commodity machines. It is good for the MCMM model to use a cloud platform and cloud computing using MapReduce and Hadoop. The data set used in the experiment includes real data and some simulated data obtained from the UCI database. The experiment used 4000 clusters. Experiments show that the MCMM model is superior to KNN and other frequently used basic classification methods in accuracy and scalability.
其他文献
鉴于船舶的特殊工作环境及速度传感器在安装维护上的困难,本文将无速度传感器矢量控制(Speedless Field—Oriented Control,SFOC)应用到船舶推进电动机控制系统中以获得高动
忠县马灌镇地处重庆三峡库区中心地带,秋季有充足的温光资源,有种植秋洋芋的传统习惯。近年来,农技部门引进、示范并推广了先进实用的稻草覆盖免耕栽培秋洋芋技术,鉴于它有成
目的了解厦门市女性卵巢癌死亡与减寿情况及其变化趋势,为厦门市卵巢癌的综合防治工作提供数据参考。方法收集分析2003-2014年厦门市女性户籍居民卵巢癌死亡资料,计算死亡率
目的:评估p16及Ki-67检测在子宫颈(以下简称宫颈)上皮内病变诊断中的价值,为临床应用提供依据。方法:选取2015年1月至2016年6月间我院收治的200例宫颈上皮病变患者的活检组织
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
现阶段,我国国民经济处于快速发展的阶段,经济的发展在一定程度上促进了社会生产力的发展,电力资源的需求量也呈现着逐步增长的趋势,这给电力企业员工的工作带来了一定的挑战
随着各地电网的迅速发展,变电站的数量和规模也随之增加.但是,电网生产组织的集约化和专业化程度却相对滞后.为了满足电网发展的要求,我们应当极力推行变电运维的一体化管理
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
中共山西省委组织部关于表彰五集电视政论片《热土壮歌》创作单位和主创人员的决定全省人民深切关注的太旧高速公路东西两段已经胜利通车,全线通车也指日可待。这是省委,省政府
摘要:类比思想是中学数学学习中不可或缺的数学思想,对于深化概念理解,促进知识的条理化,训练思维广阔性和深刻性,发展数学迁移能力和创造力有着重要的作用。对此,笔者结合自身的教学实践,分析和探讨类比思想在高中数学教学中的重要性以及教学策略。  关键词:类比思想; 高中数学 ; 教学策略  一、类比思想在高中数学教学中的重要性  在高中数学教学中,类比思想发挥着重要的作用。具体体现在以下几个方面:  1