XML/RDF数据索引技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户：corber

【摘要】

：

随着互联网的高速发展，XML以其强大的数据表达能力以及简单、开放性、可扩展等优点而成为互联网信息发布和数据交换的标准。由于XML在语义表达方式上的局限性，RDF作为语义Web的

【作者】

：

郭大亮

【机构】

：

东南大学

【出处】

：

东南大学

【发表日期】

：

2010年期

【关键词】

：

语义相似度结构相似度聚类分析四元组索引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的高速发展，XML以其强大的数据表达能力以及简单、开放性、可扩展等优点而成为互联网信息发布和数据交换的标准。由于XML在语义表达方式上的局限性，RDF作为语义Web的核心技术被W3C提出。随着Web的快速发展和广泛应用，网络环境下数据规模日益庞大，对这些数据的存储、管理以及查询成为具有挑战性的问题。　　为了有效地对XML与RDF数据进行存储、管理，以高效地响应用户的查询请求，论文对XML文档聚类技术以及RDF数据存储与索引技术进行研究，主要工作包括：　　针对XML文档聚类，首先，通过XML文档约简，将不影响XML文档特征的冗余节点和结构删除，以精简XML文档的特征表示，提高文档间相似度计算的效率；其次，研究XML文档的数据模型，在树路径模型的基础上提出一种能够全面描述XML文档特征的方法--完全标签路径；第三，针对语义相似度计算，提出一种将元素嵌套结构纳入语义相似度计算的方法-语义层次影响因子SeLAF，改进了传统语义相似度计算“扁平化”的情况，提高了文档相似度计算的准确度；第四，根据文档树模型中不同层次的元素对结构相似度影响的权重不同，提出将元素所在位置纳入结构相似度计算的算法StrucSim_Calculation，合理地处理结构中的嵌套信息；最后，提出SSBClustering算法进行XML文档聚类，并与已有的研究成果进行比较，表明算法是有效的。　　针对RDF数据存储与索引，基于三元组与四元组数据模型，提出基于时间戳的RDF四元组数据模型，并分析存储与索引方法RDBMS、Property Tables、VerticalPartitioning、Hexastore应用于四元组的优劣性，提出一种适合数据模型的数据存储与索引方法K-indexing，并通过实验验证K-indexing方法的有效性。

其他文献

逻辑漏洞检测与软件行为分析关键技术研究

计算机与互联网技术的快速发展，带来了一场计算机软件领域的技术革命。从PC时代的单机软件，到互联网时代的分布式软件，再到如今云计算时代倡导的软件服务，计算机软件的应用得到了

学位

软件测试程序分析漏洞检测行为分析

基于DHT的结构化P2P路由协议Chord的研究

目前对等网络面临的重要问题就是如何高效的定位网络中的资源,基于DHT的结构化路由算法的提出使这一问题得到了相对优化的解决方案。本文针对典型结构化P2P路由协议Chord展开

学位

对等网络Chord路由查找Vivaldi仿真

基于目标的数据库测试查询生成技术研究

当在数据库设计过程当中引进了一项新技术，必须在不同操作系统环境下测试新数据库系统的性能。通常，数据库测试会选择一套复杂的数据集和SQL查询集，并分别在引进新技术前后的数

学位

基于目标查询势约束采样空间裁剪评估

Web旅游文化挖掘中的实体关系抽取及知识链接系统构建

随着社会的不断发展和工作压力的不断增加,旅游成为了人们释放压力和享受生活的一种方式。人们的文化程度越来越高,在观光旅游时不仅寻求美丽的自然景观,还期待着丰富的文化

学位

信息抽取命名实体识别关系抽取旅游文化知识链接系统

汽车票务Deep Web数据采集关键技术研究

互联网技术已广泛应用于民航、铁路以及道路旅客运输联网售票领域,尤其是互联网汽车票联网售票迎来飞速发展阶段。汽车票联网售票系统建设的前提是在互联网上获取该类主题数

学位

互联网汽车票务网网页识别分类模型系统设计

移动学习系统开发技术的探索与研究

本文将在比较与分析当前无线平台搭建技术的基础上,构建一个基于J2ME/J2EE平台以及GPRS网络的移动学习系统,以扩展网络学习系统无线领域的应用。本文研究的重点在于如何设计

学位

移动学习系统无线应用设计模式J2MEJ2EE

一种基于表示学习的知识图谱融合算法与系统实现

近年来，随着语义网的发展，越来越多的结构数据以知识图谱的形式公开发布，并广泛应用于信息检索、推荐系统、问答系统等领域。知识图谱作为语义数据的重要组成部分，通常包含了大量

学位

实体融合算法理论知识图谱表示学习

基于纠缠协助的量子纠错码理论的研究

自1995年Peter Shor构造出第一个量子纠错码[[9，1，3]]码之后，量子纠错码的研究在最近十几年进展很快。CSS编码理论的提出建立了以经典线性纠错编码为基础的量子纠错编码的理论和

学位

纠缠协助量子纠错码理论稳定子体系

多阵列光伏系统的最大功率点跟踪算法研究

随着化石能源的消耗殆尽,太阳能作为一种理想的可再生能源,具有重要的研究价值。光伏发电系统是一种将太阳能转换成电能的发电系统,是目前最具发展前景的发电方式之一。最大

学位

光伏阵列MPPT局部遮荫集群控制PSO算法

视频图像超分辨率重建算法研究

视频图像超分辨率重建技术能够突破视频图像采集设备的限制,获取高分辨率的视频图像,这不仅仅改善了视频图像的视觉效果,也为计算机对这些视频图像进行进一步的分析和处理奠

学位

运动估计视频图像超分辨率重建

XML/RDF数据索引技术研究

其他学术论文