论文部分内容阅读
多机系统为人类实现高性能计算、大容量分布式信息存储提供了强大的工具,多机系统的广泛使用已经成为衡量一个国家经济发展和信息化水平高低的一个重要标志。随着系统规模的日益扩大,系统中出现故障的可能性也随之增大。因此,如何维持系统的高可靠性和可用性就成为一个迫切需要解决的问题。提高系统可靠性的一个主要手段就是及时诊断出系统中发生故障的结点,然后对其替换或修复,使系统恢复到正常工作状态。系统级故障诊断作为故障诊断的一个强有力工具,在容错领域得到了广泛的应用。这种诊断方法因不使用额外的设备对系统进行诊断而具有极高的应用价值。t1/t1-可诊断系统与tp-可诊断系统相比,前者只需付出可能把至多一个正常结点误诊断为故障结点的代价就可以显著地提高系统的自诊断能力。因此,对t1/t1-可诊断系统进行研究具有极高的价值。本论文的主要工作是在MM*模型下,对t1/t1-可诊断系统的诊断算法进行了研究,取得的主要成果描述如下:在对t1/t1-可诊断系统的研究过程中,得到了一些t1/t1-可诊断系统的性质,并对MM*模型下的症候进行了分析,最后根据这些性质提出了一个在MM*模型下t1/t1-可诊断系统的诊断算法,其时间复杂度为O(n2.5),其中n为系统中的结点总数。应用这个算法,可以把t1/t1-可诊断系统中的故障结点集F隔离到一个结点集U里,其中|F|≦t1,|U|≦min{t1,|F|+1}。应用算法计算之后返回的结果可以进一步判定在U中的结点是否全部是故障结点,或者在U中是否包含一个不能确定是否出现故障的结点(这个结点可能是故障结点,也可能是无故障结点)。最后对算法的正确性进行了论证,并分析了该算法的时间复杂度。就我们所知,这还是国际上第一次在MM*模型下提出了t1/t1-可诊断系统的诊断算法。