论文部分内容阅读
计算机网络的发展激发了人们对计算能力拓展的追求,分布式计算是这一努力的一个重要方向。从超级计算到集群,网格计算,Web2.0以及云计算都是这一探索不同侧面的反映。网格计算的核心思想是如何有效地管理和使用大规模分布式的计算资源和数据资源,因此如何实施监控,收集状态数据,评估系统性能是网格研究的重要内容。
网格性能度量包括三个主要的阶段,数据收集阶段、数据处理阶段和数据传播阶段。数据收集阶段通过部署监控工具感知系统状态信息。数据处理阶段分析收集到的数据,发现并定位问题,对结果使用可视化技术进行展现。数据传播阶段发布信息数据和分析结果,通过事件路由机制,将数据传递给监控信息订阅者。
针对这三个方面问题,本文首先在广泛调研网格和网格监控工具的基础上,分析网格监控的总体需求和关键因素,在充分考虑通用性和重用性的基础上,完善网格监控理论模型,增强监控系统的可实现性。
虽然很多网络监控工具通过收集和整合数据可以提供关于系统总体性能的全局信息,但是这种宏观数据并不能帮助用户理解和调整系统内部的运行状况。网格在实际应用中,通常需要在应用层和中间件层部署不同的监控工具,为了获取跨层网格任务的状态,揭示系统内部行为,本文提出了一种针对网格监控异构性的信息收集方法。它通过在目标对象中插入监控元数据来获取系统执行时的内部状态和通信。与传统方法相比,新方法不局限于具体网络通讯协议和应用程序类型,因此可以实现跨越管理域跟踪关键性能事件,并通过捕获它们间的关系,为系统诊断提供支持。
在数据处理阶段,本文工作主要侧重两个方面,使用哪些指标和属性来反映网格性能和状态,以及采用什么样的手段可以实现这些分析目标。本文对欧美著名网格项目的真实负载数据进行了建模分析,分析结果较全面地反映了系统真实的运行状况。为了高效处理大量性能数据,本文设计并实现了一个专门用于网格负载分析的原型系统。
要求所有的网格用户都安装完全一样的监控工具是非常困难的,网格系统的整体性能并不取决于分布式网络中的某个个体。网格性能度量需要为网络环境下的网格负载数据共享提供互操作机制。结合网格负载管理的特点,本文提出一种网格负载的网络组织方式,即负载社区。在此基础上,本文设计了一种基于社区的监控事件发布订阅机制来提高网格负载站点间的信息传播效率。