基于MapReduce的相似性连接查询算法

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:ssskkkmmm77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年以来,大数据处理一直是计算机界研究的热点,特别是云计算、物联网和社交网络等新兴服务的出现,使得各类型的数据呈现爆炸式增长。由于海量数据具有数据量巨大、数据结构复杂等特点,因此从海量数据中挖掘有效信息的技术难度越来越大,特别是从海量数据中进行相似性连接查询就愈发困难。所谓相似性连接查询,指的是从一个或者两个数据集(或者数据源)中查找出所有相似的对象对。该技术被广泛应用于相似图像检索、相似网页检测、文本挖掘和社区信息聚类等领域。在目前关于相似性连接查询的研究中,主要集中使用一台计算机处理存储在数据库中的数据,但面对TB甚至PB级别的海量数据,会出现存储容量、内存空间不足和CPU运算瓶颈等问题。   为了解决这些问题Google率先提出了MapReduce的编程模型,该模型通过集合大量廉价商用机器的存储和运算能力,使得该运算模型能够处理海量数据的运算。本文在深入研究MapReduce的工作原理后,提出了一种基于MapReduce的相似性连接查询算法。本文研究的数据对象是被广泛应用于图像信息存储的高维直方图数据,并利用推土距离(Earth Movers Distance,EMD)作为相似性度量的方法。推土距离具有良好的抗噪性,对概率分布间的微小偏移不敏感等优良特点,同时由于该度量方法具有三次方的复杂度,应用该方法会降低算法的时间效率。为解决该问题,本文提出的算法设计了三个MapReduce的运算阶段,并引用向量投影的方法来降低高维数据的维度,进而计算推土距离的下界,同时利用霍夫变换技术,对经过投影的数据构建霍夫空间,从而达到数据修剪的目的。本文还对该算法进行多维投影向量的扩展,使得运算的效率得到进一步提高。   本文最后通过一系列的实验来验证本文提出的基于MapReduce的相似性连接查询算法的正确性、高效性以及可靠性。同时通过对比本文提出的算法与目前研究相同课题的最新算法的实验结果显示,本算法具有更好的表现。
其他文献
字符识别是模式识别领域的重要研究课题。随着计算机与互联网技术的发展,特别是智能终端的普及,联机手写字符识别已经成为人们现实生活的重要需求。汉字的种类繁多,结构复杂,且相
随着科学技术的发展与普及,计算机与网络在各个领域都获得了广泛的运用,信息安全问题日益凸显。可信计算是公认的解决计算机安全问题的一种有效途径。采用了可信计算技术的计
骨龄指标在医学领域、体育领域和司法等领域有着广泛的应用,是目前医学图像处理领域重要的研究课题之一。现阶段对骨龄评价主要是通过人工方式对手腕骨X射线图像进行观察来获
随着互联网信息,尤其是文本信息的爆炸式增长,如何让用户高效地获取最重要或者说最需要的信息已经成为学术界备受重视的问题。以Web InfoMall为例,从2001年以来,该系统已经保存了
本报告分为两部分内容来阐述作者在站期间完成的多核体系结构分析与优化技术研究工作及成果。  (1)基于蚁群优化的片上网络自适应路由算法的FPGA仿真与性能分析技术研究。
分组密码和hash函数作为密码学的重要基础算法,一直是密码学界和工业界的热点研究课题之一。线性分析,差分分析,不可能差分分析、boomerang攻击、相关密钥攻击、积分攻击、和rot
人脸表情识别技术已经在游戏、驾驶员疲劳检测、智能人机交互等领域得到了广泛的应用。但是表情表述和理解的计算,仍然是一个极具挑战性的课题,这主要是因为人脸表情识别中涉及
日益严重的交通问题已成为全球性的顽疾,它不仅影响个人生活和社会经济活动,而且涉及到环境、能源和安全等当今世界关注的重要议题。智能交通系统(ITS)被公认是解决道路交通问
随着社会发展对高效工作的迫切要求以及移动互联网技术的迅猛发展,越来越多的单位和个人迅速加入到移动办公的行列。在传统的办公模式中,工作人员必须在特定的工作环境和特定网
随着计算机技术以及人工智能技术的不断发展,智能决策技术在许多领域得到研究和应用,并发挥着越来越重要的作用。本文就是基于人工智能和决策支持系统领域的相关知识和技术,针对