论文部分内容阅读
2007年11月1日正式实施的国标《信息系统灾难恢复规范》(GB/T 20988-2007,以下简称《规范》)是我国目前较为实用的关于灾难恢复建设的标准,对各企业进行灾备建设具有重要的指导意义。该标准的内容完全符合国际流行的BCM(业务连续性管理)最佳惯例。然而,中国标准通常有个特点,就是篇幅短小,条款简洁,文字精练。如果没有对标准进行配套的宣传解释和相应的理论培训,标准在贯彻执行时就难免遇到一些问题。
建立组织机构
国标中明确要求设立灾难恢复组织机构,通常包括灾难恢复领导小组、灾难恢复规划小组、灾难恢复运维小组。这充分反映了我国的灾难恢复建设国家标准的先进性和科学性,也是中国标准与国际惯例相结合的体现。
然而目前许多单位对这三个小组的建立,在理解和执行上都存在不同程度的不足。
关于领导小组因为灾难恢复的最终目标就是恢复业务的运行,所以整个灾难恢复活动与全企业各个部门都紧密相关。因此,如何使各部门都积极参与灾难恢复的建设过程,有效地协调各部门的资源,是灾备建设成败的关键环节。因此,成立一个强有力的领导小组来调动、分配和协调各种资源就显得非常重要。
但是许多单位对高管层领导参与灾难恢复建设工作的重要性认识不足,在成立灾备领导小组时,参与的人员级别并不够高,或者虽有高管层人员参与,却只是挂名,并不参与实际工作。另外,某些单位的灾难恢复领导小组在灾备系统规划建设完成后,人员就发生变化,灾难恢复领导小组实际只是一个临时性的组织。
关于规划小组 规划小组具体负责灾难恢复建设的项目规划、需求分析、策略选择、设计实施、DRP制定和演练等工作。这些工作涉及到整个企业的各个业务部门及技术、行政和后勤保障相关部门,因此,规划小组的人员组成是一个非常关键的环节,他们必须覆盖所有相关的部门,而且必须指定专人配合。
然而,很多单位的规划小组成员往往以IT部门的人员为主,基本上没有各业务部门的人员参与,这就使得规划小组在进行项目规划、需求分析等工作时,很难调动各种资源,自然也无法充分地分析各种数据,得出客观合理的需求结果,更无法协调所需灾备需求资源。这样,很难保证灾难恢复建设的顺利进行,也无法保证所建成的灾备系统真正有效。
关于维护小组维护小组也就是灾难恢复日常运行小组,主要负责灾备中心的日常运维、技术支持、DRP维护,以及事发时的控制和评估、执行业务恢复等。维护小组也不应该只是由IT部门的人员组成。事实上,IT人员只是侧重于系统和技术的维护,整个小组还应该有负责业务功能和流程、应急响应、安保的人员,同时还要有行政后勤人员参与。
但目前各單位的灾难恢复维护小组通常主要都是由IT部门的人员组成,这必然给DRP的日常维护及事发时的启动埋下隐患。
有效确定需求
通常人们认为灾难恢复建设的第一步是确定灾难恢复需求,然后才能决定恰当的解决方法——灾难恢复策略。但在现实中,我们常常发现灾备项目小组历尽千辛万苦整理出来的需求分析报告和制定出来的相关灾备策略,在最后评审时却发现需求分析的结果与实际业务需求有偏差,只能重新开始。造成这种现象的主要原因并非小组人员不够努力,也不完全是业务部门配合不够,而是缺少一个完善的灾难恢复组织机构来保证灾难恢复需求分析工作的顺利进行。
走出策略误区
《规范》中给出了制定灾难恢复策略的七要素,以及根据这七个要素对灾难恢复能力划分的六个等级,这无疑为各单位制定灾难恢复策略提供了一个很好的参考指南。
然而在实际工作中,人们常常还是会陷入某些误区。比如说:过分注重灾难恢复的技术方案,而忽视了整个业务恢复流程的有效性,造成技术支持的RTO值(反映所允许的中断时间)要求很高(这造成投资大大增加),而整个恢复流程的RTO值所满足的要求并不太高。还有些单位混淆对RPO(反映所允许丢失的数据量)的要求与对RTO的要求。许多单位对RPO要求很高,这是可以理解的(尤其是关系到国计民生的业务),但对RTO值的要求却不一定很高(如零中断)。譬如,发生重大灾难时,银行的自动取款业务允许中断几小时,但客户存款数据却不能有任何丢失。做到零丢失是完全可能的,而要做到零中断却是较难的,有时即使技术上做到了,业务流程也不可能做到。
考虑灾难恢复策略时应该更多地关注整个业务的恢复流程,而不仅是注重技术方案——最好的技术方案并不一定是技术指标最高的,而是从整个业务恢复流程来看是最合理的。因此,对各种恢复策略进行成本效益分析时也应从整个业务流程来考虑,这样才可能得出合理的业务恢复RTO值,并选择合理的灾难恢复策略。
加强演练和培训
虽然大多数企业在制定了灾难恢复计划(DRP)后都清楚应该进行认知培训、测试演练及维护更新,《规范》中对这些提出了明确的要求。但是在实际执行中,多数企业在这方面做得不全面。这主要表现在以下几个方面:
其一,对认知活动不够重视。虽然大多数企业完成DRP后会进行相关的培训,但培训人员的覆盖面不够广,还有很多应该了解DRP的人并未得到相应的培训,而对全体员工的灾难恢复认知宣传就更加不足,这必会影响事发时DRP的启动和执行效果。
其二,演练不够充分。许多单位虽然对灾难恢复系统进行了一定的测试,但普遍缺乏对计划流程和人员进行充分的演练,这就无法确保DRP的有效性。
其三,维护更新不及时。由于演练不够充分,所制定的DRP中存在的问题就无法及时暴露出来,也就不能及时改进。此外,由于灾难恢复组织机构不够完善,企业内部发生的变更可能得不到及时反映,也就无法对DRP进行相应的更新。另外,由于目前我国尚缺乏强制性的相关法规,无法对DRP提出强制性的审计要求,而企业的自查有时会流于形式,这也使得DRP不能得到定期的有效更新。
BCM是最佳方法
解决以上所述灾难恢复建设中遇到的各种问题的最佳方法是BCM。BCM是专门帮助组织机构应对灾难的一体化管理方法。相对于应对公共突发事件的问题,BCM主要是解决组织机构自身应对灾难的问题。BCM方法论的核心内容被归纳为10个国际最佳惯例。
项目启动与管理:确定BCM项目需求,获得高管层的支持,建立BCM组织机构及各小组人员的责任,明确BCM项目的范围,确定计划编制时间表等。
风险评估和控制:识别可能的威胁和风险,确定应采取的控制措施等。
业务冲击分析(BIA):确定关键业务功能和流程,确定RTO和RPO,以及确定互依赖性及优先级别等。
制定业务持续策略:根据BIA的结果制定恢复策略(包括企业级和部门级策略),进行成本效益分析,选择最佳的策略等。
应急响应和措施:制定和贯彻执行用于事件发生后进行响应并使状态得到稳定的流程(应急预案),建立和管理紧急运行中心,该中心作为紧急情况时期的指挥中心。
编制和贯彻执行业务持续计划:设计、编制和贯彻执行业务持续计划以提供满足恢复时间目标(RTO)和恢复点目标(RPO)的业务持续。
认知和培训计划:制定相关的计划,对相关人员进行培训,使其掌握必要的技能来执行BC/DR计划,并对全体员工进行BCM认知教育,从而将BCM融入到整个企业的文化中去。
维护及演练业务持续计划:制定测试计划,以测试系统和技术的可靠性;制定演练计划,以检验BC计划流程和人员行为的有效性;对测试和演练结果进行评价并提出改进意见;制定计划维护和更新的流程。
危机沟通:制定、协调、评估和演练危机沟通计划,这些计划用于与各类利益相关者、外部机构、以及媒体等的沟通。
与外部机构的协调:建立适当的流程和计划来与外部机构进行协调,从而完成持续和恢复活动,同时确保符合相应的法令法规要求。
这十个最佳惯例包含了任何组织机构为应对灾难所应做的各项工作(包括预案制定、贯彻执行、演练维护及认知培训等等),按照这十个最佳惯例制定的各种预案覆盖了灾难恢复的六个阶段(6R模型):
1.减小(Reduce):事件发生前为预防灾难的发生所应做的准备工作。
2.响应(Respond):事件发生时,按照计划进行响应和评估。
3.恢复(Recover):按照优先级别启动相应的恢复计划来使相关流程和支持功能恢复到稳定的运行状态。
4.重启(Resume):按照优先级别重新启动事先确定的关键业务运行。
5.重建(Restore):灾难过去后,执行相关程序修复或重建永久站点及其内容,并重建原来的正常运行。此时的业务运行通常是在后备(或临时)中心进行。
6.返回(Return):按计划将后备(或临时)中心的业务运行返回到永久站点。
以上这六个阶段形成了一个完整的灾难恢复生命周期,如左图所示。
可以看出,BCM的主要内容(十个国际最佳惯例及6R模型)完全与国家标准 《信息系统灾难恢复规范》的要求相一致。事实上,《规范》中对灾难恢复建设的基本要求正是参照BCM的国际最佳惯例提出的,这是因为企业的DRP本来就属于企业业务连续性计划(BCP)的一部分,可将DRP看作是一种专门针对IT服务业务的BCP,而且DRP的制定与BCP的制定在方法上也是基本一致的。一个完整的DRP和BCP都应该包含6R模型中各阶段所需的程序和计划(预案)。因此,参照BCM的方法论来制定灾难恢复建设的标准是非常合理的。
建立组织机构
国标中明确要求设立灾难恢复组织机构,通常包括灾难恢复领导小组、灾难恢复规划小组、灾难恢复运维小组。这充分反映了我国的灾难恢复建设国家标准的先进性和科学性,也是中国标准与国际惯例相结合的体现。
然而目前许多单位对这三个小组的建立,在理解和执行上都存在不同程度的不足。
关于领导小组因为灾难恢复的最终目标就是恢复业务的运行,所以整个灾难恢复活动与全企业各个部门都紧密相关。因此,如何使各部门都积极参与灾难恢复的建设过程,有效地协调各部门的资源,是灾备建设成败的关键环节。因此,成立一个强有力的领导小组来调动、分配和协调各种资源就显得非常重要。
但是许多单位对高管层领导参与灾难恢复建设工作的重要性认识不足,在成立灾备领导小组时,参与的人员级别并不够高,或者虽有高管层人员参与,却只是挂名,并不参与实际工作。另外,某些单位的灾难恢复领导小组在灾备系统规划建设完成后,人员就发生变化,灾难恢复领导小组实际只是一个临时性的组织。
关于规划小组 规划小组具体负责灾难恢复建设的项目规划、需求分析、策略选择、设计实施、DRP制定和演练等工作。这些工作涉及到整个企业的各个业务部门及技术、行政和后勤保障相关部门,因此,规划小组的人员组成是一个非常关键的环节,他们必须覆盖所有相关的部门,而且必须指定专人配合。
然而,很多单位的规划小组成员往往以IT部门的人员为主,基本上没有各业务部门的人员参与,这就使得规划小组在进行项目规划、需求分析等工作时,很难调动各种资源,自然也无法充分地分析各种数据,得出客观合理的需求结果,更无法协调所需灾备需求资源。这样,很难保证灾难恢复建设的顺利进行,也无法保证所建成的灾备系统真正有效。
关于维护小组维护小组也就是灾难恢复日常运行小组,主要负责灾备中心的日常运维、技术支持、DRP维护,以及事发时的控制和评估、执行业务恢复等。维护小组也不应该只是由IT部门的人员组成。事实上,IT人员只是侧重于系统和技术的维护,整个小组还应该有负责业务功能和流程、应急响应、安保的人员,同时还要有行政后勤人员参与。
但目前各單位的灾难恢复维护小组通常主要都是由IT部门的人员组成,这必然给DRP的日常维护及事发时的启动埋下隐患。
有效确定需求
通常人们认为灾难恢复建设的第一步是确定灾难恢复需求,然后才能决定恰当的解决方法——灾难恢复策略。但在现实中,我们常常发现灾备项目小组历尽千辛万苦整理出来的需求分析报告和制定出来的相关灾备策略,在最后评审时却发现需求分析的结果与实际业务需求有偏差,只能重新开始。造成这种现象的主要原因并非小组人员不够努力,也不完全是业务部门配合不够,而是缺少一个完善的灾难恢复组织机构来保证灾难恢复需求分析工作的顺利进行。
走出策略误区
《规范》中给出了制定灾难恢复策略的七要素,以及根据这七个要素对灾难恢复能力划分的六个等级,这无疑为各单位制定灾难恢复策略提供了一个很好的参考指南。
然而在实际工作中,人们常常还是会陷入某些误区。比如说:过分注重灾难恢复的技术方案,而忽视了整个业务恢复流程的有效性,造成技术支持的RTO值(反映所允许的中断时间)要求很高(这造成投资大大增加),而整个恢复流程的RTO值所满足的要求并不太高。还有些单位混淆对RPO(反映所允许丢失的数据量)的要求与对RTO的要求。许多单位对RPO要求很高,这是可以理解的(尤其是关系到国计民生的业务),但对RTO值的要求却不一定很高(如零中断)。譬如,发生重大灾难时,银行的自动取款业务允许中断几小时,但客户存款数据却不能有任何丢失。做到零丢失是完全可能的,而要做到零中断却是较难的,有时即使技术上做到了,业务流程也不可能做到。
考虑灾难恢复策略时应该更多地关注整个业务的恢复流程,而不仅是注重技术方案——最好的技术方案并不一定是技术指标最高的,而是从整个业务恢复流程来看是最合理的。因此,对各种恢复策略进行成本效益分析时也应从整个业务流程来考虑,这样才可能得出合理的业务恢复RTO值,并选择合理的灾难恢复策略。
加强演练和培训
虽然大多数企业在制定了灾难恢复计划(DRP)后都清楚应该进行认知培训、测试演练及维护更新,《规范》中对这些提出了明确的要求。但是在实际执行中,多数企业在这方面做得不全面。这主要表现在以下几个方面:
其一,对认知活动不够重视。虽然大多数企业完成DRP后会进行相关的培训,但培训人员的覆盖面不够广,还有很多应该了解DRP的人并未得到相应的培训,而对全体员工的灾难恢复认知宣传就更加不足,这必会影响事发时DRP的启动和执行效果。
其二,演练不够充分。许多单位虽然对灾难恢复系统进行了一定的测试,但普遍缺乏对计划流程和人员进行充分的演练,这就无法确保DRP的有效性。
其三,维护更新不及时。由于演练不够充分,所制定的DRP中存在的问题就无法及时暴露出来,也就不能及时改进。此外,由于灾难恢复组织机构不够完善,企业内部发生的变更可能得不到及时反映,也就无法对DRP进行相应的更新。另外,由于目前我国尚缺乏强制性的相关法规,无法对DRP提出强制性的审计要求,而企业的自查有时会流于形式,这也使得DRP不能得到定期的有效更新。
BCM是最佳方法
解决以上所述灾难恢复建设中遇到的各种问题的最佳方法是BCM。BCM是专门帮助组织机构应对灾难的一体化管理方法。相对于应对公共突发事件的问题,BCM主要是解决组织机构自身应对灾难的问题。BCM方法论的核心内容被归纳为10个国际最佳惯例。
项目启动与管理:确定BCM项目需求,获得高管层的支持,建立BCM组织机构及各小组人员的责任,明确BCM项目的范围,确定计划编制时间表等。
风险评估和控制:识别可能的威胁和风险,确定应采取的控制措施等。
业务冲击分析(BIA):确定关键业务功能和流程,确定RTO和RPO,以及确定互依赖性及优先级别等。
制定业务持续策略:根据BIA的结果制定恢复策略(包括企业级和部门级策略),进行成本效益分析,选择最佳的策略等。
应急响应和措施:制定和贯彻执行用于事件发生后进行响应并使状态得到稳定的流程(应急预案),建立和管理紧急运行中心,该中心作为紧急情况时期的指挥中心。
编制和贯彻执行业务持续计划:设计、编制和贯彻执行业务持续计划以提供满足恢复时间目标(RTO)和恢复点目标(RPO)的业务持续。
认知和培训计划:制定相关的计划,对相关人员进行培训,使其掌握必要的技能来执行BC/DR计划,并对全体员工进行BCM认知教育,从而将BCM融入到整个企业的文化中去。
维护及演练业务持续计划:制定测试计划,以测试系统和技术的可靠性;制定演练计划,以检验BC计划流程和人员行为的有效性;对测试和演练结果进行评价并提出改进意见;制定计划维护和更新的流程。
危机沟通:制定、协调、评估和演练危机沟通计划,这些计划用于与各类利益相关者、外部机构、以及媒体等的沟通。
与外部机构的协调:建立适当的流程和计划来与外部机构进行协调,从而完成持续和恢复活动,同时确保符合相应的法令法规要求。
这十个最佳惯例包含了任何组织机构为应对灾难所应做的各项工作(包括预案制定、贯彻执行、演练维护及认知培训等等),按照这十个最佳惯例制定的各种预案覆盖了灾难恢复的六个阶段(6R模型):
1.减小(Reduce):事件发生前为预防灾难的发生所应做的准备工作。
2.响应(Respond):事件发生时,按照计划进行响应和评估。
3.恢复(Recover):按照优先级别启动相应的恢复计划来使相关流程和支持功能恢复到稳定的运行状态。
4.重启(Resume):按照优先级别重新启动事先确定的关键业务运行。
5.重建(Restore):灾难过去后,执行相关程序修复或重建永久站点及其内容,并重建原来的正常运行。此时的业务运行通常是在后备(或临时)中心进行。
6.返回(Return):按计划将后备(或临时)中心的业务运行返回到永久站点。
以上这六个阶段形成了一个完整的灾难恢复生命周期,如左图所示。
可以看出,BCM的主要内容(十个国际最佳惯例及6R模型)完全与国家标准 《信息系统灾难恢复规范》的要求相一致。事实上,《规范》中对灾难恢复建设的基本要求正是参照BCM的国际最佳惯例提出的,这是因为企业的DRP本来就属于企业业务连续性计划(BCP)的一部分,可将DRP看作是一种专门针对IT服务业务的BCP,而且DRP的制定与BCP的制定在方法上也是基本一致的。一个完整的DRP和BCP都应该包含6R模型中各阶段所需的程序和计划(预案)。因此,参照BCM的方法论来制定灾难恢复建设的标准是非常合理的。