基于MapReduce的相似性连接查询算法

来源 :华南师范大学 | 被引量 : 0次 | 上传用户：ssskkkmmm77

【摘要】

：

近年以来，大数据处理一直是计算机界研究的热点，特别是云计算、物联网和社交网络等新兴服务的出现，使得各类型的数据呈现爆炸式增长。由于海量数据具有数据量巨大、数据结构复杂

【作者】

：

余建辉

【机构】

：

华南师范大学

【出处】

：

华南师范大学

【发表日期】

：

2013年期

【关键词】

：

相似性连接查询推土距离霍夫变换数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年以来，大数据处理一直是计算机界研究的热点，特别是云计算、物联网和社交网络等新兴服务的出现，使得各类型的数据呈现爆炸式增长。由于海量数据具有数据量巨大、数据结构复杂等特点，因此从海量数据中挖掘有效信息的技术难度越来越大，特别是从海量数据中进行相似性连接查询就愈发困难。所谓相似性连接查询，指的是从一个或者两个数据集（或者数据源）中查找出所有相似的对象对。该技术被广泛应用于相似图像检索、相似网页检测、文本挖掘和社区信息聚类等领域。在目前关于相似性连接查询的研究中，主要集中使用一台计算机处理存储在数据库中的数据，但面对TB甚至PB级别的海量数据，会出现存储容量、内存空间不足和CPU运算瓶颈等问题。　　为了解决这些问题Google率先提出了MapReduce的编程模型，该模型通过集合大量廉价商用机器的存储和运算能力，使得该运算模型能够处理海量数据的运算。本文在深入研究MapReduce的工作原理后，提出了一种基于MapReduce的相似性连接查询算法。本文研究的数据对象是被广泛应用于图像信息存储的高维直方图数据，并利用推土距离（Earth Movers Distance，EMD）作为相似性度量的方法。推土距离具有良好的抗噪性，对概率分布间的微小偏移不敏感等优良特点，同时由于该度量方法具有三次方的复杂度，应用该方法会降低算法的时间效率。为解决该问题，本文提出的算法设计了三个MapReduce的运算阶段，并引用向量投影的方法来降低高维数据的维度，进而计算推土距离的下界，同时利用霍夫变换技术，对经过投影的数据构建霍夫空间，从而达到数据修剪的目的。本文还对该算法进行多维投影向量的扩展，使得运算的效率得到进一步提高。　　本文最后通过一系列的实验来验证本文提出的基于MapReduce的相似性连接查询算法的正确性、高效性以及可靠性。同时通过对比本文提出的算法与目前研究相同课题的最新算法的实验结果显示，本算法具有更好的表现。

其他文献

基于SVM增量学习的联机中文手写字符识别研究

字符识别是模式识别领域的重要研究课题。随着计算机与互联网技术的发展，特别是智能终端的普及，联机手写字符识别已经成为人们现实生活的重要需求。汉字的种类繁多，结构复杂，且相

学位

联机中文手写识别支持向量机增量学习特征提取

基于USBKEY的可信启动的研究与实现

随着科学技术的发展与普及,计算机与网络在各个领域都获得了广泛的运用,信息安全问题日益凸显。可信计算是公认的解决计算机安全问题的一种有效途径。采用了可信计算技术的计

学位

GRUB可信计算可信启动可信引导USBKEY

骨龄自动评价系统中的手腕骨兴趣区域定位研究

骨龄指标在医学领域、体育领域和司法等领域有着广泛的应用，是目前医学图像处理领域重要的研究课题之一。现阶段对骨龄评价主要是通过人工方式对手腕骨X射线图像进行观察来获

学位

骨龄自动评价系统脉冲耦合神经网络算法手腕骨二值分割定位方法

基于多样性选择模型的自动文摘研究

随着互联网信息，尤其是文本信息的爆炸式增长，如何让用户高效地获取最重要或者说最需要的信息已经成为学术界备受重视的问题。以Web InfoMall为例，从2001年以来，该系统已经保存了

学位

自动文摘多样性选择模型收益递减原则语义相似度空间向量模型排序算法

多核体系结构分析与优化技术研究

本报告分为两部分内容来阐述作者在站期间完成的多核体系结构分析与优化技术研究工作及成果。　　(1)基于蚁群优化的片上网络自适应路由算法的FPGA仿真与性能分析技术研究。

学位

多核处理器体系结构蚁群优化现场可编程门阵列路由算法

基于MapReduce的相似性连接查询算法

其他学术论文