论文部分内容阅读
随着时间的推移,客观物质在不断变化,不断有信息数据发生变化并有新的信息数据产生,如何有效处理这些历史数据,当前数据,和未来数据,这使得时态数据库应运而生。由于时态数据需要海量存储,计算机在硬件上的飞速发展为其在物理上的实现提供了可能,于是时态数据的存储与管理逐渐得到人们的重视与研究。时态数据的时态组成部分为时间标签,通常是指时间期间。查询是所有数据管理中非常重要的基本任务,又由于时间期间间的各种不同的复杂关系使得传统的索引技术难以胜任,因此时态索引技术成为实现时态数据高效查询的关键所在。
我们将现有的时态索引方式主要归纳为基于“代数”方式和基于“关系”方式两种。基于“代数”的时态索引方式主要是用作外存索引,它的主要运算及比较方式都是基于一般的“代数”,如加、减、乘、除、相等、大于、小于等,可以在传统的关系数据库中得到很好的实现。在该种时态索引方式中,具有代表性的主要有基于B+树的时态索引和基于R树的时态索引两种。由于这类索引方式的本质原因,使得这些相关研究都没能从根本上解决遍历超集这个问题。对于基于“关系”的时态索引方式,它既可用作内存索引也可用作外存索引。其中,时间期间查询的基础是时间期间的相互关系,这此关系通常不是等价关系,而是更具普遍性的某种序关系,如Allen关系大都是非等价(相等)关系,其中常用的包含与相交就是非等价关系。传统的非时态数据库技术多是基于等价关系,难以高效地被应用于时态情景。基于非等价关系查询模式使用基于等价关系(相等)的传统索引模式(例如B+树)是导致查询结果为超集而非“准确”集的基本性原因。本文所研究的一种新型的“拟序关系”划分的时态索引方法,它把时态查询置于底层的非等价关系框架之上。它不涉及具体的应用场景,因此可看作是基于时间期间数据的一般索引结构框架,可通过各种不同的方法进行转换,发挥现有的成熟技术对其进行扩展,应用到不同的时态场景中。
本文首先通过研究时间期间之间的数学关系,即时间期间的终始点关系和时态线序分支等数学关系,提出了下优先线序划分算法(DFA)、右优先线序划分算法(RFA)以及最小线序划分的概念,并证明由下优先线序划分算法(DFA)和右优先线序划分算法(RFA)所得到的线序划分都是最小线序划分。接着在下优先时态线序划分的基础上建立能适应各种场景的一般性的基于时态线序划分索引结构框架TLOPIndex和eTLOPIndex,并为TLOPIndex设计了查询算法增量式更新算法,为eTLOPIndex设计了查询算法。其中重点讨论了TLOPIndex插入更新与删除更新算法;最后通过大量数据的实验,验证了基于时态线序划分索引框架TLOPIndex和eTLOPIndex的有效性和可行性。