论文部分内容阅读
随着通过Internet提供商业服务的发展,服务系统的可用性程度对服务提供者的商业利益具有重大的影响。同时,由于通过计算机服务系统提供的服务内容和服务范围都在不断扩大,计算机服务系统的规模也需不断扩大,现有的小规模的高可用系统已经难以满足这样大规模计算机系统对高可用支持的需求。因此研究可扩展的高可用集群系统十分重要。 集群系统的优点是可扩展性好,但随着集群系统规模的增大,结点数目的增多,集群系统整体的可靠性会相应降低。另外,用于支持不同应用管理的服务器集群系统涉及的用户数目庞大,因此高可用性对服务器集群系统具有格外的重要意义。提高集群系统可用性的软件将成为集群操作系统中必不可少的部分,特别是故障监测恢复和集群系统的管理手段对大规模系统和长时间运行的应用显得尤为重要。可以说,集群的体系结构为集群高可用研究提供了可能性,服务器集群系统在软件方面提出集群高可用研究的必要性,高可用性技术和集群技术的结合是近年来计算机领域的一个重要研究方向。 本文的目的就是研究服务器集群系统的高可用性。具体的方法是首先分析集群系统的结构特征以及服务器集群软件应具备的性能,然后在分析高可用系统理论及关键技术的基础上,推倒出并行结构与串行结构高可用性公式。对双机高可用系统进行研究与改进,最后给出了双机高可用系统可用性的估算值,并测试了双机高可用系统的切换时间。针对后端服务器,我们将软件再生技术引入集群高可用系统中,设计并实现了一个作为基于集中式集群结构的服务器软件之一的集群高可用管理系统,给出了几种软件老化模型和算法并提出一种新的算法,并就实现中的关键问题进行了详细的描述。最后,我们对集群高可用系统做出了可用性评价。