论文部分内容阅读
随着计算机技术的发展以及全球经济的增长,世界各地各种各样的组织对IT系统的依赖都在不断增加。电子贸易使得商务每周七天每天24小时不问断的进行成为了可能。商业和社会机构对日常操作的计算机化要求达到了空前的程度,而对计算机高可用性的要求,更是达到了空前的高度。
双机软件容错技术是实现系统级冗余提高系统可用性的一个行之有效的方法。本文在对影响计算机系统可用性的因素进行分析的基础上,对提高系统可用性的各种方法、双机容错系统的体系结构、系统故障检测与诊断、事务在软件容错中的运用、心跳监测等方面的内容进行了深入研究。初步设计并实现了一个基于UNIX/LINUX的双机容错系统的原型,并依据马尔可夫模型对系统的性能进行分析。
本文所研究的主要内容涉及以下几个方面:
1.简要介绍了目前容错技术概念和发展现状,以及软件容错技术;
2.研究故障产生的根源以及衡量系统可用性的度量;
3.对双机容错软件在数据访问方式,网络失效切换策略,恢复策略等方面进行分类比较。提出系统的逻辑功能模型,并进一步设计出系统结构组成,制定出实现方案;
4.分析了系统中节点处于的各种状态,并归纳总结出状态之间的转移规则和条件。在此基础之上设计出中央控制模块,使之成为系统运行的控制核心:
5.为系统建立了马尔可夫模型,对理论上能达到的性能进行了分析。
6.故障恢复是容错系统的一个重要组成部分,将事务运用于故障恢复,能极大的增加系统的可用性。在对事务的状态转换进行分析后,实现了事务性保护。
该系统已经投入了实际使用。实践表明,本系统能够提供一个高可用性的环境。与类似的商用软件相比,本系统大大减少了系统修复时间,从而提高了系统的可靠性,同时,在网络失效切换的速度以及故障的监测方面都有很大的提高。