论文部分内容阅读
在对多集群系统进行认真考察后,本文提出在多集群系统中有关作业管理的核心原则:在实际的多集群系统中进行作业管理时,应当用作业的计算资源需求,而非运行时间来表述作业的特征以进行作业管理。在核心原则的指导下,本文提出了在集群内部的计算机集共享策略。在大规模实验之前,本文对核心原则的正确性和根据此原则提出的计算机集共享策略进行了简单的实验验证。
本文认为,在多集群系统中,应依照物理拓扑构造逻辑拓扑结构,将各个子系统统一管理,进行作业分配;在进行作业分配时,应针对作业对于计算资源的需求及现有计算资源信息,计算作业应分配的集群系统和集群内的计算机子集。
本文提出在多集群系统中,面向资源需求的层次化作业管理理论。这个理论包括三个部分:“多集群体系结构的逻辑拓扑与资源描述”、“作业的资源需求描述体系”,以及“多集群中面向资源需求的作业管理模型”。
对于多集群体系结构的逻辑拓扑与资源描述,本文提出多集群的层次化逻辑系统构建理论、讨论了大规模集群内部的层次化信息管理逻辑结构,并提出了针对层次化系统的计算资源描述方法,给出了计算资源的描述参数。
对于作业的资源需求描述体系,本文给出了作业的需求参数集;提出了作业进程之间的关系定义及描述方法,并介绍一种动态预知作业对资源需求的方法。
对于在多集群中面向资源需求的作业管理模型,本文论述如何在多集群中面向资源需求,进行多层次的统一作业管理,讨论在集群系统内部进行作业管理的重要算法:面向资源需求进行分时分区共享的作业分配、作业预填算法。在作业管理模型中还进行了一些其它内容的简单讨论,它们分别是用户管理与权限控制、容错机制、对计算资源进行定量控制、资源预留,和作业迁移。
本文注重理论与实际的结合,不仅仅提出了管理理论,还设计了相应的实际管理系统—LilyGBS系统。它在多集群系统中进行统一的,面向资源需求的作业管理。从这个意义上讲,本文提出的多集群系统中面向计算资源需求的层次化管理理论/系统可以看作是网格环境中进行作业管理的基础。
在本文正文的最后,用实验完整、系统地验证了本文提出的在多集群系统中对于作业管理的核心原则的正确性,并对根据此原则提出的计算机集共享策略以及管理模型中的算法进行性能验证;再分集群外和集群内两种情况进行作业分配实验,验证了本文设计的多集群管理系统LilyGBS的有效性。
在附录中,本文用一个相对独立的部分论述本文的先期工作,也是本文的基础理论指导—任务并行计算模型LilyTask。