论文部分内容阅读
随着数据库与信息技术的深入发展,信息系统面临着许多新的应用和需求,对时态信息处理的需求也越来越迫切,例如电子商务、数据仓库、地理信息系统。通常把具有一种时间属性的数据称作是时态数据,时态数据的时间属性是指有效时间或事务时间,而把同时具有两种时间属性的数据称为双时态数据。论文主要探讨时态数据的索引方法。
互联网的发展也越来越快,新型社交网络的出现和快速发展,使得用户愿意主动产生数据,智能手机、平板电脑为代表的新型移动互联网终端的普及使得人们接入网络的途径更为便捷。这些因素使得互联网上产生了海量的数据,推动了分布式数据库系统的发展。近年来出现了一些非关系式的分布式数据库,例如Google的BigTable,Apache基金会的HBase,Amazon的Dynamo。
论文根据时态数据本身特性,根据时间期间之间的包含关系定义了时态数据的“拟序关系”,并且在“拟序关系”框架内建立时态数据基本结构:线序分支(LOB)与线序划分(LOP)。线序划分将杂乱的时态数据的集合划分成一条条有序的线序分支。根据线序划分,本文提出的时态数据索引Tindex(MLOP, LOP)是对时态数据的有效时间(Valid Time)进行索引的一种有效的索引技术。论文分析了Tindex的查询操作的效率,并且对于Tindex的更新的实验表明大部分的更新不会影响超过5条线序分支。
本文尝试将LOP用于分布式数据库系统(DDBS),提出分布式时态索引DTindex;提出Master-Slave结构的时态索引查询系统,使用线序分支为最小单位分割LOP,用分割式的方法将LOP的分割分布到各个Slave。LOP的数据分配的目的是使整个分布式数据的总体代价最优,这也是在数据分配设计时需要考虑的首要问题。为了更好地解决数据分配问题,论文提出了基于时间期间个数和时间期间查询期望的2种时态数据索引分割方法。并且用实验验证了2种方法。