灾难中将业务进行到底

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:gongyang12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  2007年11月1日正式实施的国标《信息系统灾难恢复规范》(GB/T 20988-2007,以下简称《规范》)是我国目前较为实用的关于灾难恢复建设的标准,对各企业进行灾备建设具有重要的指导意义。该标准的内容完全符合国际流行的BCM(业务连续性管理)最佳惯例。然而,中国标准通常有个特点,就是篇幅短小,条款简洁,文字精练。如果没有对标准进行配套的宣传解释和相应的理论培训,标准在贯彻执行时就难免遇到一些问题。
  
  建立组织机构
  
  国标中明确要求设立灾难恢复组织机构,通常包括灾难恢复领导小组、灾难恢复规划小组、灾难恢复运维小组。这充分反映了我国的灾难恢复建设国家标准的先进性和科学性,也是中国标准与国际惯例相结合的体现。
  然而目前许多单位对这三个小组的建立,在理解和执行上都存在不同程度的不足。
  关于领导小组因为灾难恢复的最终目标就是恢复业务的运行,所以整个灾难恢复活动与全企业各个部门都紧密相关。因此,如何使各部门都积极参与灾难恢复的建设过程,有效地协调各部门的资源,是灾备建设成败的关键环节。因此,成立一个强有力的领导小组来调动、分配和协调各种资源就显得非常重要。
  但是许多单位对高管层领导参与灾难恢复建设工作的重要性认识不足,在成立灾备领导小组时,参与的人员级别并不够高,或者虽有高管层人员参与,却只是挂名,并不参与实际工作。另外,某些单位的灾难恢复领导小组在灾备系统规划建设完成后,人员就发生变化,灾难恢复领导小组实际只是一个临时性的组织。
  关于规划小组 规划小组具体负责灾难恢复建设的项目规划、需求分析、策略选择、设计实施、DRP制定和演练等工作。这些工作涉及到整个企业的各个业务部门及技术、行政和后勤保障相关部门,因此,规划小组的人员组成是一个非常关键的环节,他们必须覆盖所有相关的部门,而且必须指定专人配合。
  然而,很多单位的规划小组成员往往以IT部门的人员为主,基本上没有各业务部门的人员参与,这就使得规划小组在进行项目规划、需求分析等工作时,很难调动各种资源,自然也无法充分地分析各种数据,得出客观合理的需求结果,更无法协调所需灾备需求资源。这样,很难保证灾难恢复建设的顺利进行,也无法保证所建成的灾备系统真正有效。
  关于维护小组维护小组也就是灾难恢复日常运行小组,主要负责灾备中心的日常运维、技术支持、DRP维护,以及事发时的控制和评估、执行业务恢复等。维护小组也不应该只是由IT部门的人员组成。事实上,IT人员只是侧重于系统和技术的维护,整个小组还应该有负责业务功能和流程、应急响应、安保的人员,同时还要有行政后勤人员参与。
  但目前各單位的灾难恢复维护小组通常主要都是由IT部门的人员组成,这必然给DRP的日常维护及事发时的启动埋下隐患。
  
  有效确定需求
  
  通常人们认为灾难恢复建设的第一步是确定灾难恢复需求,然后才能决定恰当的解决方法——灾难恢复策略。但在现实中,我们常常发现灾备项目小组历尽千辛万苦整理出来的需求分析报告和制定出来的相关灾备策略,在最后评审时却发现需求分析的结果与实际业务需求有偏差,只能重新开始。造成这种现象的主要原因并非小组人员不够努力,也不完全是业务部门配合不够,而是缺少一个完善的灾难恢复组织机构来保证灾难恢复需求分析工作的顺利进行。
  
  走出策略误区
  
  《规范》中给出了制定灾难恢复策略的七要素,以及根据这七个要素对灾难恢复能力划分的六个等级,这无疑为各单位制定灾难恢复策略提供了一个很好的参考指南。
  然而在实际工作中,人们常常还是会陷入某些误区。比如说:过分注重灾难恢复的技术方案,而忽视了整个业务恢复流程的有效性,造成技术支持的RTO值(反映所允许的中断时间)要求很高(这造成投资大大增加),而整个恢复流程的RTO值所满足的要求并不太高。还有些单位混淆对RPO(反映所允许丢失的数据量)的要求与对RTO的要求。许多单位对RPO要求很高,这是可以理解的(尤其是关系到国计民生的业务),但对RTO值的要求却不一定很高(如零中断)。譬如,发生重大灾难时,银行的自动取款业务允许中断几小时,但客户存款数据却不能有任何丢失。做到零丢失是完全可能的,而要做到零中断却是较难的,有时即使技术上做到了,业务流程也不可能做到。
  考虑灾难恢复策略时应该更多地关注整个业务的恢复流程,而不仅是注重技术方案——最好的技术方案并不一定是技术指标最高的,而是从整个业务恢复流程来看是最合理的。因此,对各种恢复策略进行成本效益分析时也应从整个业务流程来考虑,这样才可能得出合理的业务恢复RTO值,并选择合理的灾难恢复策略。
  
  加强演练和培训
  
  虽然大多数企业在制定了灾难恢复计划(DRP)后都清楚应该进行认知培训、测试演练及维护更新,《规范》中对这些提出了明确的要求。但是在实际执行中,多数企业在这方面做得不全面。这主要表现在以下几个方面:
  其一,对认知活动不够重视。虽然大多数企业完成DRP后会进行相关的培训,但培训人员的覆盖面不够广,还有很多应该了解DRP的人并未得到相应的培训,而对全体员工的灾难恢复认知宣传就更加不足,这必会影响事发时DRP的启动和执行效果。
  其二,演练不够充分。许多单位虽然对灾难恢复系统进行了一定的测试,但普遍缺乏对计划流程和人员进行充分的演练,这就无法确保DRP的有效性。
  其三,维护更新不及时。由于演练不够充分,所制定的DRP中存在的问题就无法及时暴露出来,也就不能及时改进。此外,由于灾难恢复组织机构不够完善,企业内部发生的变更可能得不到及时反映,也就无法对DRP进行相应的更新。另外,由于目前我国尚缺乏强制性的相关法规,无法对DRP提出强制性的审计要求,而企业的自查有时会流于形式,这也使得DRP不能得到定期的有效更新。
  
  BCM是最佳方法
  
  解决以上所述灾难恢复建设中遇到的各种问题的最佳方法是BCM。BCM是专门帮助组织机构应对灾难的一体化管理方法。相对于应对公共突发事件的问题,BCM主要是解决组织机构自身应对灾难的问题。BCM方法论的核心内容被归纳为10个国际最佳惯例。
  项目启动与管理:确定BCM项目需求,获得高管层的支持,建立BCM组织机构及各小组人员的责任,明确BCM项目的范围,确定计划编制时间表等。
  风险评估和控制:识别可能的威胁和风险,确定应采取的控制措施等。
  业务冲击分析(BIA):确定关键业务功能和流程,确定RTO和RPO,以及确定互依赖性及优先级别等。
  制定业务持续策略:根据BIA的结果制定恢复策略(包括企业级和部门级策略),进行成本效益分析,选择最佳的策略等。
  应急响应和措施:制定和贯彻执行用于事件发生后进行响应并使状态得到稳定的流程(应急预案),建立和管理紧急运行中心,该中心作为紧急情况时期的指挥中心。
  编制和贯彻执行业务持续计划:设计、编制和贯彻执行业务持续计划以提供满足恢复时间目标(RTO)和恢复点目标(RPO)的业务持续。
  认知和培训计划:制定相关的计划,对相关人员进行培训,使其掌握必要的技能来执行BC/DR计划,并对全体员工进行BCM认知教育,从而将BCM融入到整个企业的文化中去。
  维护及演练业务持续计划:制定测试计划,以测试系统和技术的可靠性;制定演练计划,以检验BC计划流程和人员行为的有效性;对测试和演练结果进行评价并提出改进意见;制定计划维护和更新的流程。
  危机沟通:制定、协调、评估和演练危机沟通计划,这些计划用于与各类利益相关者、外部机构、以及媒体等的沟通。
  与外部机构的协调:建立适当的流程和计划来与外部机构进行协调,从而完成持续和恢复活动,同时确保符合相应的法令法规要求。
  这十个最佳惯例包含了任何组织机构为应对灾难所应做的各项工作(包括预案制定、贯彻执行、演练维护及认知培训等等),按照这十个最佳惯例制定的各种预案覆盖了灾难恢复的六个阶段(6R模型):
  1.减小(Reduce):事件发生前为预防灾难的发生所应做的准备工作。
  2.响应(Respond):事件发生时,按照计划进行响应和评估。
  3.恢复(Recover):按照优先级别启动相应的恢复计划来使相关流程和支持功能恢复到稳定的运行状态。
  4.重启(Resume):按照优先级别重新启动事先确定的关键业务运行。
  5.重建(Restore):灾难过去后,执行相关程序修复或重建永久站点及其内容,并重建原来的正常运行。此时的业务运行通常是在后备(或临时)中心进行。
  6.返回(Return):按计划将后备(或临时)中心的业务运行返回到永久站点。
  以上这六个阶段形成了一个完整的灾难恢复生命周期,如左图所示。
  可以看出,BCM的主要内容(十个国际最佳惯例及6R模型)完全与国家标准 《信息系统灾难恢复规范》的要求相一致。事实上,《规范》中对灾难恢复建设的基本要求正是参照BCM的国际最佳惯例提出的,这是因为企业的DRP本来就属于企业业务连续性计划(BCP)的一部分,可将DRP看作是一种专门针对IT服务业务的BCP,而且DRP的制定与BCP的制定在方法上也是基本一致的。一个完整的DRP和BCP都应该包含6R模型中各阶段所需的程序和计划(预案)。因此,参照BCM的方法论来制定灾难恢复建设的标准是非常合理的。
其他文献
重复数据删除功能仅在磁盘内写入惟一性的数据,因而降低了存储容量需求。当备份数据写入磁盘时,昆腾DXi系列磁盘备份设备利用昆腾专利的可变长度块级重复数据删除技术,将写入的备份数据中的惟一性字块识别出来,并且只存储惟一性备份数据。换句话说,当一个字块被处理后,备份设备只存储指向原有字块的一个指针,不需要再次复制该字块。  昆腾的重复数据删除技术被定义为在线式技术,即在数据备份的过程中,利用缓冲过程提高
当其他国内IT厂商大玩文字游戏,纷纷策略性地将联想算做国际厂商,而试图提高自己在国内IT厂商中的排名时,长城电脑却将目标不折不扣地定为“三年内剑指国内三甲”。长城电脑有什么资格放出这样的豪言?是深思熟虑后的切实之举,还是信心爆棚后的痴人说梦?长城电脑准备好了吗?  2007年1月9日,在长城电脑内部的渠道伙伴大会上,长城电脑雄心勃勃地喊出“三年之内剑指国内三甲”的目标。  “如果长城电脑按照现在的
CFO与IT部门员工是最关心虚拟化技术,以及该技术能给企业带来何种好处的人群。那么如何将用户需求反馈落到实处,如何与虚拟机管理软件、操作系统及应用软件厂商密切合作,都是英特尔这样的企业需要重视的课题。    最近在与客户的交流中,我询问了他们在业务中的新需求——毫无疑问,企业都希望以更低的成本来实现当前的业务需求,为此他们必须使用虚拟化技术。那么,都有谁该关心虚拟化呢?  第一,CFO关心。在访问
为了提高欺骗用户的成功率,网络罪犯利用大众的恐惧和焦虑心理兜售流氓安全软件。赛门铁克基于信誉的安全技术,为用户带来全新的终端防护方法,消除用户选择流氓安全软件的可能性。    目前,电脑使用中最不安全的因素是什么?  “是人!”赛门铁克资深首席解决方案顾问林育民说,“在电脑的使用过程中,恶意软件的下载、个人信息泄露大都是由于用户的低警惕性和不良的使用习惯造成的。”赛门铁克《流氓安全软件报告》的最新
如果没有来到农村,你或许很难感受到农民从新农合领到救命钱的由衷喜悦。在湖南临湘的试点村,新农合又向前推进了一步:以信息化手段为支撑,农民除了住院能得到补偿,在乡村卫生室门诊就医也能获得实时补偿。临湘农民“小病忍,大病挨,重病才往医院抬”的状况终成历史。本报记者走访临湘,见证新农合门诊统筹的惠民力量。    如果连最广大的农民群体都没有医疗保障,就无法说社会会真正走向和谐。随着我国推行的新型农村合作
相关人物  马克·赫德  如此前景广阔,惠普掌门人马克·赫德当然不会视而不见,甚至错失先机。事实上,低调的惠普早已为此厉兵秣马,在其信息和量子系统实验室中,名为地球中枢神经系统(CeNSE)的研究项目已经开展了3年以上。预计未来5年内,惠普将安装10亿甚至更多传感器来监测地球状况,率先应用这项技术的会是使用大量人工监测的化工、能源等行业。帮客户分析CeNSE监测数据,将成为惠普未来一笔不小的新生意
“金财工程建设必须从国家电子政务建设总体战略的要求出发,充分认识到一体化管理在金财工程建设过程中的核心地位。”在近日召开的一体化管理与金财工程建设研讨会上,财政部相关领导强调。这是继2006年金财工程被国家发改委正式审批立项,以及2006年8月财政部召开全国财政系统金财工程建设座谈会,将一体化财政确定为我国“十一五”期间金财工程的指导思想之后,财政部对于金财工程建设思路的再次重申。    八大脱节
比尔·盖茨曾经的敌人    斯科特·麦克尼利  有“IT斗牛士”之称的Sun公司前总裁斯科特·麦克尼利是盖茨最著名的敌人之一。历史上,麦克尼利曾经多次炮轰盖茨,将对微软及产品的冷嘲热讽视为家常便饭。    马克·安德烈森  马克·安德烈森是网景公司的创始人,在24岁的时候就凭借世界上第一个浏览器Mosaic燃起了互联网上的头一支火炬。1995年8月,微软第一个浏览器产品IE 1.0一发布便将网景公
这几天,对于诺基亚西门子公司(以下简称诺西)的CEO白伟贤(Simon Beresford-Wylie)来说,日子并不那么好过。不佳的财报表现,拆分的传言,这一切都让人们感到诺西前景堪忧。    诺基亚和西门子的合并,似乎并没有给它们带来更多的客户。  回想起2006年,诺基亚和西门子正式宣布合并其运营商设备部门时,由于投资者相当认可两家的合作,欧洲股市主要指数在该消息正式宣布后出现不同幅度的上涨
本报讯 中国互联网协会于近日成立了农村信息服务工作委员会,其主要宗旨是推进农业信息化建设,推进农村网络化进程,扶持涉农类信息与媒体机构的发展和创新,促进成员之间的沟通与合作,为农业互联网产业的发展、农业政策的宣传引导、农产品经营、农村科普知识教育与普及、农村互联网应用与推广提供参考指导。  据了解,农村信息服务工作委员会由18家涉农网站共同发起成立。首批成员单位包括农博网等48家涉农互联网企业。中