论文部分内容阅读
现实世界许多应用中的数据,不是有限的离散数据集,而是无限的连续数据集。这种由连续、无限、随时间变化的数据项组成的有序序列被称为数据流。数据流的到达速度及数据量一般是不可预知的,所以通常不能用传统的数据库管理系统和技术来管理数据流,需要用新的数据流管理系统(Data Stream Management System,DSMS)进行管理.数据流管理技术的应用领域非常广泛,如无线传感器网络、网络流量统计与控制、股票交易所的股票价格分析、道路交通监测系统等。
无线传感器网络(Wireless Sensor Networks,WSNs)是数据流典型应用场景之一,它可以对各种环境实施监测和教据采集,为科学研究、军事及工业应用提供大量实时数据。如何对这些数据进行实时传输与处理成为近年来新的研究热点。
一方面,由于无线传感器网络资源有限,在传感器节点处对数据进行压缩,可以减少数据流的传输量,节约通讯带宽。但目前已有的数据流压缩算法没有考虑数据流内部的多态性,而实际应用中,传感器网络采集的数据既有常态数据,又包含事件发生期间的非常态数据。本文针对多态数据流研究一种线性预测综合压缩算法,通过动态调整移动系数和预测模型以获得比较高的压缩性能。实验表明,在多态数据流的情况下,该综合压缩算法具有更好的压缩效率和数据精度。
另一方面,由于目前的数据流管理系统不支持对压缩数据流直接进行查询处理,在对压缩数据流进行查询时,必须先进行解压缩,从而大大降低了数据流管理系统的整体查询性能。本文以CQL连续查询语言为参考模型,定义了一种基于数据压缩的连续查询语义模型,并基于该查询语义设计了一个抽象的针对压缩数据流的连续查询语言CCQL(Compression-hased Continuous Query Language)。CCQL既支持压缩数据流的连续查询操作,也支持对原始数据流的连续查询操作,同时还支持传统的基于关系的基本操作。从而实现了压缩数据流的直接查询,扩展了DSMS的功能。
本文最后在Stanford大学的STREAM原型系统上实现了CCQL;并在CCQL语言的实现中增加了几种对时间戳的基本查询操作,使得对时间戳的查询更加直观,扩展了CQL的窗口操作类型;还根据时间戳的递增特性对时间戳的查询操作进行了优化。从而提高了数据流管理系统的整体性能。