论文部分内容阅读
随着互联网技术的不断发展,许多企业为了捕捉生产过程中设备的相关信息,产生了大量的数据流;以及电子商务公司随着业务规模的扩大,产生了巨大的交易量引发的数据流,这些数据流对企业的发展和领导层的决策起着非常重要的作用。一般地说,传统的数据存在磁盘上,以关系型数据的形式呈现出来;而数据流不同,它是按照时间顺序快速变化,具有海量和无限延续性等特征,很难将其数据全部存储起来。因此,本文选取对数据流的研究具有一定的理论意义和应用价值。 为方便对数据流数据存储和查询以及快速处理等操作,本文首先设计了一种循环缓冲区处理框架。然后,从B+树出发,设计一种改进的Variety-B树结构。为简化B+树的结构,Variety-B树去掉了B+树叶子结点指向兄弟的指针,这样就使Variety-B树的所有结点不能分裂。为避免Variety-B树叶子结点不能进行分裂而导致存储结构的复杂,采用哈希桶进行改进,利用若干哈希桶代替Variety-B树的叶子结点,使Variety-B树对叶子结点具有可分裂性。Variety-B树是一种层次索引存储结构,它是一种能存储和索引多维属性数据的内存数据结构。对Variety-B树叶子结点中哈希桶存储的数据位置引起的冲突采用专门设计的哈希函数进行解决,本文采用线性探测法解决数据流插入哈希桶所产生的位置冲突问题,建立Variety-B树结构,对循环缓冲区处理的数据流进行存储,达到对数据流高效、快速地查询。 理论分析和实验测试结果表明,本文所设计的Variety-B树结构内存数据库可以对循环缓冲区处理的数据进行高效地存储和快速地查询,可以满足实际应用中对数据流操作的要求。