论文部分内容阅读
信息时代的到来,使得人类社会每日产生的数据量呈现出指数性增长的态势。随着数据规模的日渐庞大,数据中蕴含的价值信息的时效性却往往越来越短,因此在不改变传统的流式数据处理系统架构的基础上,势必会对流式数据处理系统的运行效率以及底层计算资源的利用率等方面提出更高的要求。传统的流式数据处理系统通常运行在物理机或虚拟机环境之上,即便是运行在以虚拟机为基础的云环境中,在流式数据处理系统的部署管理和维护、计算资源的利用率以及动态调度与扩展性等方面也存在着很大的制约。因此,在流式数据处理领域,亟需一种更高效的资源分配、隔离和调度的方案,容器技术的出现为解决此问题提供了一种新的思路。 针对上述问题,本文在深入研究云平台技术、容器技术、容器集群调度技术以及大数据流处理系统等相关技术的基础上,设计并提出了一种基于容器的、分层多模块的、弹性大数据流计算系统的技术实现方案。依据该方案,基于开源的容器引擎工具Docker和容器编排与调度系统Kubernetes,本文设计并实现了一个名为KuStream的面向于大数据流业务的分布式容器云平台系统。并更进一步的,在KuStream容器云平台系统所提供的容器调度与管理服务基础之上,本文设计并实现了一个基于流式数据计算框架Storm的大数据流系统。 实验结果表明,本文所设计的KuStream容器云平台系统能够以更细粒度的资源调度和更高效率的资源虚拟化方式,为流式计算系统带来计算能力的动态调整、计算资源的弹性配置等优点,并在一定程度上提升集群的计算资源利用率和大数据流系统处理数据的效率。