基于区域树索引的实时实体解析和査询处理

来源 :河北大学 | 被引量 : 0次 | 上传用户:lvhuan009a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体解析和查询处理是数据库和大数据领域中两个重要的研究课题。实体解析是指识别数据集中描述现实世界同一实体的多个元组,并且对这些元组进行合并的过程。针对大数据和含有重复元组的低质数据集,如果不考虑实体解析,可能导致传统查询处理方法低效,甚至失效。传统实体解析技术不能直接运用于查询处理,如何使得实体解析方法具有更好的有效性和可扩展性仍是悬而未决的问题。因此需要新的处理方法,既能够实时去掉重复元组又能够快速完成查询处理。为此,本文构建区域树索引,并基于该索引给出实时实体解析和查询处理方法。
  构建区域树索引,对《维数据空间9T中的数据集进行实时实体解析。在ー个n维数据集中,每个元组是ー个《维实向量,针对存在重复元组的《维脏数据集,识别并聚类其中的重复元组:首先,提出空间划分算法PRC,将包含数据集的最小区域进行动态划分,每次将ー个区域划分为若干个互不相交且完全的子区域;其次,在划分过程中将》维区域空间构建区域树索引;最后,利用分治机制有效地进行实时实体解析,即将大型数据集分解成若干较小的数据集,应用区域树索引,对每个较小的数据集进行实体解析,这样既降低了对物理设备的配置要求又使得解析过程快速有效。
  利用区域树索引和实体解析方法,给出点查询、区域查询及XNN查询处理的相应算法,得到的查询结果为不同的聚类或其代表。点查询利用区域树索引快速找到查询点所在叶节点,在节点链接的链表中针对列表属性,采用二分查找方法寻找查询元组位置,返回查询結果。
  区域查询通过查询区域与区域树索引中叶节点相互比较,找出与查询区域相交或包含的叶节点,在这些节点链接的链表中采用二分查找方式按列表属性找到距离区域中心最近点,在一定阈值内顺序遍历其它节点,找出区域内元组。—查询运用点查询与区域查询的相应处理机制,动态更新查询区域半径,直到找出足个满足条件的元姐。
  针对上述基于区域树索引的实时实体解析和查询处理方法,使用十五个不同维数的数据集进行广泛的实验,其中维数《的范围为2く“784。根据脏数据集中相应干净数据集的不同基数、不同维数及不同分布,实验对实时实体解析、点查询、区域查询及KNN查询进行了验证和分析。实验结果表明,本文给出的区域树索引和算法对实时实体解析和三类查询处理均具有较好的性能,对每条数据的处理均可在亚秒内实现,满足实时性要求。
其他文献
太阳能热发电是可再生能源发电中最有前途的发电方式之一,目前正引起世界许多国家的关注。传热技术是太阳能热发电关键技术。目前,太阳能热发电传热技术中熔融盐传热技术是一种先进的技术,它可用于槽式和塔式太阳能热发电系统。尽管国外已经有熔融盐传热蓄热的试验系统或试验电站,但对于熔融盐传热特性的理论研究还是非常缺乏的。本课题成功建立一套用于研究熔融盐对流换热特性的实验台,实验台解决了熔融盐高温、腐蚀性、毒性等
烟气脱硫工艺中,喷雾干燥法是目前应用比较广泛的半干法烟气脱硫技术。它既有湿法脱硫反应速度快、脱硫效率高的特点,又有干法无污水废酸排出,脱硫后产物易于处理的好处,广泛适用于中小型电厂及垃圾焚烧电厂。然而目前半干法结合常规除尘器对亚微米级的细颗粒脱除效果不好,处理捧放的烟气仍有大量的PM10进入空气中。可吸入颗粒物(PM10)由于其粒径小、数量多、重量轻、比表面积大,极易吸附多种有毒有害物质,且在大气
直接序列扩频MSK通信系统(简称DSSS-MSK系统),拥有扩频通信系统所具有的抗干扰性能强、保密性高的优势,兼具MSK信号包络恒定、能量集中、频谱利用率高以及对非线性失真不敏感的特点,在卫星通信、雷达宽带数据传输、导弹指令传输等领域得到了广泛应用。随着高速移动通信环境的应用需求日益增加,开展高动态下直扩MSK全数字解扩接收机的同步算法研究具有重要的理论意义和应用价值。  本文分析了直扩MSK信号
直接序列扩频通信系统具有抗干扰性能强、截获率低的特点,广泛应用于电子对抗、导航以及保密通信等军事领域。在高动态环境中,由于载体机动引起很大的多普勒频移和多普勒变化率,给扩频信号的捕获和跟踪带来困难。随着高速移动通信环境的应用需求日益增加,开展高动态环境下扩频信号的快速捕获算法研究具有重要的理论意义和应用价值。  本文首先介绍直扩信号捕获的经典算法—匹配滤波方法,分析了多普勒频偏对伪码捕获的影响,利
无线测向问题可以追溯到无线通信的起始阶段,由于其在通信、雷达、声呐、导航等方面的应用而引起了学术与工业界的广泛关注。自二十世纪初以来,高频环境下信号产生器和信号放大器的显著发展极大地扩展了到达角(Direction of arrival, DOA)估计系统的能力和适用性。随着大规模多输入多输出(Multiple-input multiple-output, MIMO)系统出现,全数字结构具有电路成
联盟博弈(coalitional games)一直是多agent系统(multi-agent systems,MAS)和人工智能领域的一个非常重要和活跃的方向。究其原因,联盟提供了一种灵活的协作方式,让一些独立的agent在一定时间内结成一个协作团队,相互联合起来实现优势互补和资源共享,从而能够更加智慧、灵活和高效的完成目标。然而,现有研究大都局限于确定性环境,需要预先给出每个agent拥有的能力
学位
无线数据汇聚网络(WSNs,Ad hoc,Mesh,et al)作为一类新兴的、极具特色和发展前景的无线网络技术,正逐步在国民经济和社会生活的各个领域得到了广泛的应用,同时也成为学术界研究的热点领域。在无线数据汇聚网络中,如何进行多信道和TDMA时隙等网络资源的调度,从而最大化网络监测质量,最小化网络冲突,最优化网络数据汇聚性能是一个重要的研究课题。该文全面总结了该领域的理论和技术现状,重点研究了
当前,社会发展日新月异,全球性的网络化、信息化进程正在改变着人们的生活,同时也给企业的经营方式带来了深刻的影响.在市场竞争日益激烈,不可预测因素逐渐增多的环境中,企业必须借助先进的计算机和信息技术,提高自身运作的效率,才能在激烈的竞争中取得优势。因此决策支持系统得到了广泛的应用,作为决策支持系统的基础的数据挖掘技术和数据集市技术也得到了广泛的发展。数据挖掘是当今国际上人工智能和数据库研究方面最富活
学位
该文在原有的分布式智能入侵检测系统(DⅡDS)的基础上,提出应用数据挖掘技术实现入侵模式的自学习方法,有效地解决了该系统在检测规则知识维护及更新上的问题,使系统具有较好的适应性和扩展性.入侵检测系统的关键在于模式规则的准确性与概括性.在入侵检测系统中,该文利用数据挖掘技术实现对海量数据的分析处理,发现信息之间隐藏的模式,在构造基于时间和统计的特征的基础上,通过机器学习得到新的检测规则以实现系统知识
学位
时滞系统的控制是控制理论应用的一个重要领域,为了提高常规时滞控制系统的鲁棒性能,该文将智能控制和变结构控制引入到时滞系统的控制中.论文首先分析了滞后环节对系统性能的影响,讨论了几种常规控制方法,解析说明了常规控制方法鲁棒性能较差.Smith控制是基于模型的补偿控制,但其对参数变化较为敏感.模糊控制无需对象精确数学模型,但是直接应用于大滞后系统较为困难.因此该文将模糊控制与Smith控制相结合,提出