论文部分内容阅读
随着互联网的高速发展,XML以其强大的数据表达能力以及简单、开放性、可扩展等优点而成为互联网信息发布和数据交换的标准。由于XML在语义表达方式上的局限性,RDF作为语义Web的核心技术被W3C提出。随着Web的快速发展和广泛应用,网络环境下数据规模日益庞大,对这些数据的存储、管理以及查询成为具有挑战性的问题。
为了有效地对XML与RDF数据进行存储、管理,以高效地响应用户的查询请求,论文对XML文档聚类技术以及RDF数据存储与索引技术进行研究,主要工作包括:
针对XML文档聚类,首先,通过XML文档约简,将不影响XML文档特征的冗余节点和结构删除,以精简XML文档的特征表示,提高文档间相似度计算的效率;其次,研究XML文档的数据模型,在树路径模型的基础上提出一种能够全面描述XML文档特征的方法--完全标签路径;第三,针对语义相似度计算,提出一种将元素嵌套结构纳入语义相似度计算的方法-语义层次影响因子SeLAF,改进了传统语义相似度计算“扁平化”的情况,提高了文档相似度计算的准确度;第四,根据文档树模型中不同层次的元素对结构相似度影响的权重不同,提出将元素所在位置纳入结构相似度计算的算法StrucSim_Calculation,合理地处理结构中的嵌套信息;最后,提出SSBClustering算法进行XML文档聚类,并与已有的研究成果进行比较,表明算法是有效的。
针对RDF数据存储与索引,基于三元组与四元组数据模型,提出基于时间戳的RDF四元组数据模型,并分析存储与索引方法RDBMS、Property Tables、VerticalPartitioning、Hexastore应用于四元组的优劣性,提出一种适合数据模型的数据存储与索引方法K-indexing,并通过实验验证K-indexing方法的有效性。