基于Chameleon聚类算法的R树索引方法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:koala_zz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着GIS技术的快速发展,空间数据库在各个领域都得到了极大的发挥,其主要的任务是对空间数据实现有效的存储,进而实现高效访问的目的。空间数据具有海量性、内部结构复杂性、属性多样性等特征,如何有效的对数据进行存储,是当前空间数据库领域的一个难点问题。R树索引结构能够对高维海量空间数据实施有效的存储,且数据之间仍具有物理空间中的邻近性,主要应用于商业数据库中。针对当前R树索引结构存在的不足,本文主要按照以下三个部分进行研究:首先,针对传统R树构建以及分裂方法的不足,本文结合Chameleon聚类算法对其进行预处理,实现一种批量生成索引结构的技术。利用聚类结果中簇内相似性高,簇间相似性低的特点,可以减小节点的MBR(最小外包矩形)面积以避免重叠,提高算法的效率。经聚类后的节点之间相似性较低,查询过程中避免多路径检索,提高查询效率。其次,针对Chameleon算法的时间复杂度较高,通过人工蜂群方法得到一次聚类之后的质心,并作为下次聚类的初始解。利用K-means算法进行下次聚类,有效避免了任意初始值和噪声点对R树节点的影响,同时减少了构建索引结构的时间,使得静态R树在处理大数据过程中具备伸缩性。最后,针对不确定数据存储复杂的问题,本文结合聚类算法和Hilbert曲线降维方法,利用最大最小矩形剪枝策略,减少算法中积分的运算量,提高构建Hilbert-R树的效率。使用Chameleon聚类算法可以使数据之间更加紧凑,可以使除根节点以外的数据都是满容量的,提升了节点的空间利用率。同时,考虑到了节点之间的互连性,以便于发现相邻位置数据之间的潜在联系。
其他文献
作为目前信息检索领域十分有效的检索模型,基于语言模型的检索方法开辟了一个很有潜力同时也十分具有挑战的方向。与传统检索模型相比,以语言模型为基础的检索方法不仅具有良
随着近年来web2.0时代的到来和飞速发展,博客作为一项重要的互联网服务也一度出现了爆炸式增长,随着信息量的增大也带来了查找困难的问题。为解决这一问题,主要针对博客圈的检
联合补充及配送是解决供应链中产品在供应商、仓库和零售商之间调配问题的一种重要方式。随着生产力迅速的发展,人们对商品的需求也随之提高,市场环境中诸多因素都会影响到产品的运输调度。例如,当产品的需求率不确定时,会导致供应商在补充产品时的订购成本发生变化、给零售商配送时所产生的等待成本也变得不确定;当供应商在考虑联合补充中个人的补充成本以及均摊费用时,会以自身利益为前提,这时就需要通过博弈的方式来得到一
随着隐私保护意识的提高,人们越来越重视发布数据的隐私泄露问题。为了使隐私信息尽可能少地被泄露,研究人员提出各种隐私保护手段,不确定性的k-匿名隐私保护模型已经成为数
伴随着用户个性化需求的日渐增多,以及云计算技术的发展,云制造理论得到了发展和重视。基于双边客户资源整合的智慧服务平台是采用了云制造服务模式的应用平台,本课题的研究正是
现实生活中有大量事物可以建模成图数据结构,因此,对于图数据的数据挖掘有很广泛的应用领域和很重要的应用价值。聚类是数据挖掘中十分重要的方法之一,因此,图数据中的聚类问题被
随着科学技术的发展,数字图像处理被广泛应用于军事、遥感、生物医学等其它行业中,近几十年来,它已经成为一门独立的科学技术。总之,数字图像处理技术是一门在理论研究和应用开发
图像识别应用十分广泛,近年来成为一个研究热点。图像特征提取是图像识别的一个重要步骤,在统计模式识别中,特征提取的思路是将样本的原始数据映射到一个相对低维的特征空间,
随着互联网的快速发展,很多网络用户在面对巨大的网络信息时,很难快速获取到自己想要的需求信息。为了满足用户需求,个性化推荐系统由此产生。在推荐系统中,协同过滤算法得到了广泛地应用。然而,协同过滤算法建立的用户兴趣模型并没有考虑到用户兴趣会随外界因素的影响而发生变化,以及算法中存在的数据稀疏和实时性问题,这些问题将会影响推荐系统的推荐质量。为了有效解决上述问题,本文主要围绕用户兴趣捕捉、降低数据稀疏度
学位
航迹融合问题是利用信息融合技术,将来自不同传感器的航迹进行有效的处理、关联和综合,估计出较融合前更为精确可靠的目标航迹。航迹融合在战术和战略指挥、控制、通信、监视