论文部分内容阅读
在数据流应用中,数据流是连续、无界、快速、时变的,而系统环境、查询负载等随时都会产生大量的变化,如何为一组查询寻找一个最优的查询计划由静态变成了动态,这使得数据流管理系统(DSMS)需要解决自适应性的问题。
本文针对数据流模型的自适应特征,并结合Argus系统的特点,将其扩展为一个具有自适应性的数据流管理系统。本文首先对自适应查询处理技术进行了深入研究,界定了DSMS中自适应性的概念,并用ECA规则规范化自适应的执行,然后在此基础上针对Argus的现状和系统结构,构建并实现了Argus的自适应模块。本文的贡献首先在于针对系统特点,提出了几种基本的自适应解决方案,将k约束、分组技术、大纲共享等自适应策略应用到系统中,使得系统在算子层、查询网络层、大纲层都能得到自适应的调整。其次,本文提出了八条自适应ECA规则,它们对于自适应的实现是非常有效的,因为自适应的策略和方法不能单纯的以某一种指标为目标,而是在响应时间和内存消耗之间的一种权衡。我们认为,通过ECA规则可以使得这种权衡更具通用性,而且这样也方便对自适应算法进行参数化控制,在各种指标之间进行动态调整。第三,本文提出了一种辅助自适应决策的数据流概要大纲算法ETHs,它既能精确地计算最近的数据,又考虑到数据流的时间特性,对历史数据采用指数划分技术进行衰减处理,用等深直方图概要子区间的大纲,使得计算和存储代价都很低。最后,本文给出了Argus在实现自适应性上未来需要完善的一些方面。目前Argus采用集中式的处理方式,向分布式DSMS的扩展需要解决更多的自适应问题,这包括网络负载分配、全局近似计算、更灵活的调度等,对此,我们已经做了一些初步的工作。