面向海量数据的Skyline查询处理技术研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:tianzhihen1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近来,Skvline计算在集中式数据库、分布式数据库、数据流及分类属性数据集上的良好应用前景,使其成为当前数据库界研究的重点和热点之一,受到了学术界和工业界的广泛关注。作为一种广泛应用于多标准决策系统、数据挖掘可视化、电子商务、用户偏好查询及约束决策、城市导航系统、智能防御系统、以及地理信息系统等领域的新型数据挖掘技术,该课题的研究迄今为止都非常活跃。虽然学术界已经出现了不少有关该课题的研究成果,但在实际中,有两个主要因素会导致产生很大的Skyline点集,从而使得Skyline查询的应用受到影响:1)反相关数据集-“反相关诅咒”;2)多维数据集-“高维诅咒”。   在Skyline点集变得非常大的情况下,用户在过大的信息量面前经常不知所措,他们真正感兴趣的仅仅只有一小部分Skyline点。研究人员针对这一缺陷提出了很多非传统的Skyline概念,从而返回较小的更有用的Skyline点集。然而,计算这些少量的Skyline点也经常需要先计算全部的传统Skyline点集,因此解决此类问题的有效算法仍然值得探求。   本文在对现有技术之不足进行了改进的基础上,进一步解决了一些新型重要的实际应用带来的对Skyline查询处理的挑战。本文不仅对面向海量数据的集中式Skyline查询处理算法进行了系统地研究,并且研究了并行环境下的Skyline查询处理方法。主要成果概括为以下三个方面:   (1)基于低维大规模Skyline点的计算现有的Skyline算法在Skyline点集很大的情况下,并不能在合理的时间内终止,执行性能较差。通常当数据集是反相关的情况时,即便维度很低,Skyline点集也会变得非常大。本文提出在低维上快速计算大规模Skyline点集的新方法,在二维上的Skyline计算仅仅需要线性时间,算法扩展到三维,通过避免不必要的点之间控制关系检查,算法的性能依然很好。尽管本文提出的算法对Skyline查询的维数有限制,但是,当Skyline点集规模较大时,本文的算法性能比现有的算法要好,而且可以很容易在DBMS里实现,同时支持外部排序和BST-索引。   (2)抽取高维上感兴趣的Skyline点集通常来说,一个点不可能在所有的维度都很“好”,所以一旦数据集的维度略微增加,Skyline点将会剧烈地增长。当维度非常高时,几乎所有的点都是Skyline点。因此,在高维空间上抽取感兴趣的Skyline点变得尤为重要。从经验来看,仅仅相互比较每两个点来决定某个点是否感兴趣(识别Skyline的方法),这样的实际应用很少,更多的场景是研究它在每一维上究竟有多“好”。基于该思路,本文提出一个新的称之为Core Skyline的概念。Core Skyline包含所有从Skyline中抽取的感兴趣的点集。这个工作和现有工作的不同在于考虑了点之间的垂直关系。为了快速地识别Ckp,本文提出一个有效的树结构,叫作多链接B-树(LMB)。利用LMB,本文提出的算法可以在几秒钟从一个包含100,000个点的15维数据集中识别出Ckp。   (3)基于超平面分区的并行Skyline查询处理Skyline查询的计算代价往往很大,所以考虑用并行处理的方法,充分利用多处理器来加快查询处理的速度。一种常用的格分区方法的主要优点是当查询以部分串行方式执行时,一些数据空间分区不需要被检查。但是,对于Skyline查询的并行处理,当所有的分区都要被同时检查时,格分区的性能下降。本文提出用超平面投影的方法来获得有用的数据集分区,然后进行并行Skyline查询处理的策略。通过详尽的实验,本文说明这个策略非常适合并行非共享结构的Skyline查询处理,且比格分区和超球面分区的方法有明显优势。   综上所述,本文针对Skyline查询中存在的几类问题,分别从概念和算法上给出了一系列有效的解决方案,并进行了实验验证。所提出的在低维数据集上破解“反相关诅咒”的算法,能在线性时间内计算反相关导致的大规模Skyline点集;高效抽取感兴趣的Skyline点的计算方法,是对“高维诅咒”下的Skyline查询技术的有效补充;基于超平面投影的PPPS算法,从另一种角度解决了在并行环境下Skyline问题。理论分析和实验结果表明,文中所述的各类Skyline算法,在时间、空间复杂度方面相比同类算法具有明显的优势,特别是功能方面(如结果生成渐进性、用户友好性等)也大大加强。因此,它们非常适合大规模海量数据集上的在线Skyline处理。基于以上对Skyline查询问题的研究,本文还介绍了一个交互式的个人决策支持系统——PDA(Personal Decision Assistant),该系统的目的是方便用户获取所需的最优决策。  
其他文献
随着国民经济的迅速发展,私家车数量也越来越多,但同时汽车被盗己成为世界一大公害,给人们带来了巨大的经济损失。因此,利用车载GPS/DR(全球定位系统/航位推算)组合定位系统
随着Internet及其应用的快速发展与普及,越来越多的软件系统开始部署并且运行在网络环境上,计算机软件开发、部署、运行和维护的环境开始从静态、封闭和可控逐步走向动态、开放
无线传感器网络是一种功能集成、应用广泛、性价比高的网络系统,近年来已成为国内外研究热点。本文对无线传感器网络进行了深入学习,对传感器网络的历史、现状以及未来发展趋
在日常的生活和娱乐中运用三维效果,已成为当前信息社会的一个发展趋势,办公也不例外。然而,由于通常的三维模型格式都比较复杂,携带了大量的高精度的工程数据,使得三维文件的体积
成人图像视频检测(Adult Image/Video Detection)旨在快速准确地从互联网上的海量数据中识别含有色情内容的图像和视频,在信息过滤和视频监控等领域具有广阔的应用前景。  
本论文主要介绍了基于现场可编程门阵列(Field Programmable Gate Array)的长时间低零漂数字积分器的设计与实现。作者通过对积分器实现的形式、误差及FPGA等方面的深入调研,
学位
近红外光谱分析技术能够用于样品的定性和定量检测,是近十年来发展最快的高新技术之一。近红外光谱分析技术具有快速、高效、不消耗试剂、不产生污染和适合在线分析等优点,具有
幼儿教育是孩子教育的基石,幼儿的健康成长是家庭以及社会的殷切希望。目前国内的幼儿教育事业发展相当迅速,传统的幼教方式已经不能满足家长的期望,智慧幼儿园的概念应运而
网格计算是当前网络研究的热点,具有很好的发展潜力。网格中的任务调度是网格计算中的一个核心问题。由于网格系统本身的复杂性以及网格资源的异构性、动态性、自治性等特点,
在PCB板级设计中,信号完整性分析已经是必不可少的研究方法。除了需要解决高速信号的过冲,反射和串扰等问题之外,日益严峻的低电压、大电流供电趋势使得电源噪声的影响越来越不