数据中心故障频出:都是网络惹的祸?

来源 :计算机世界 | 被引量 : 0次 | 上传用户:huaweihbl999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着企业计算环境变得越来越复杂,IT系统故障和网络错误正导致越来越多的数据中心出现运行中断,造成了大量的意外宕机事件。
  电源故障是导致数据中心运行中断的常见原因,但它们并不是唯一的罪魁祸首。随着企业计算环境变得越来越复杂,IT系统和网络故障正在导致越来越多的数据中心宕机。
  数据中心设施咨询机构Uptime Institute的主要业务为提供弹性服务,为建立和运行数据中心提供建议以及认证服务。该公司一直在研究公开发表的宕机报道,以追踪导致意外停机的原因。过去三年中,他们已经从传统媒体或社交媒体上报道出来的162次宕机报告中筛选出了一些信息。可用的数据在这三年内不断增加,研究人员收集到了2016年27次宕机、2017年57次宕机以及2018年78次宕机的数据。
  Uptime Institute的研究执行董事Andy Lawrence表示:“曝光出来的宕机事故成为新闻的次数正变得越来越多。”
  在研究结果公布的同时,Lawrence指出,目前他们正记录着全球每天发生的几乎所有的重大运行中断事件。虽然这并不一定意味着运行中断的次数在急剧增加,但是宕机时间正在受到越来越多的关注。“我们很清楚,运行中断产生的影响肯定会增加。”
  Uptime Institute的一个重要研究发现是,电源在整个故障中影响较小,但网络和IT系统的影响则较为深远。导致变化的一个原因是电力系统比过去更加可靠,这减少了本地数据中心发生电力故障的次数。
  技术行业在过去二十年中一直专注于如何设计电力系统,即使电力系统某处出现故障或整个系统发生故障,IT资产也能继续运行。Uptime Institute首席技术官Chris Brown称:“供应双线IT设备的2N配电系统的出现使得IT系统能够在经历一系列独立事件和事故后仍能继续保持运行。”
  同时,日益复杂的IT环境导致了更多的IT和网络问题。Uptime Institute负责IT优化和战略的副总裁Todd Traver称:“数据现在分布在多个地方,这些数据极为依赖网络。应用程序的构建以及数据库的复制同样也非常依赖网络。这是一个非常复杂的系统。”
  对数据中心运行中断的严重性的评估
  为了区分可能导致业务崩溃的运行中断和仅仅造成不便的运行中断,Uptime Institute对此进行了分级。该评级系统可让研究人员了解运行中断的整体情况是如何随时间而变化的。Uptime Institute的评估分为五个等级:
   1级为可忽略不计的中断。该级别的中断会被记录下来,但是对服务的影响很小或没有明显影响,也没有出现服务中断。
   2级的特点为最低程度的服务中断。服务出现中断,但对用户、客户或声誉的影响微乎其微。
  3级为重要业务发生服务中断,涉及客户或用户服务,主要特点是范围、持续时间或影响有限。对财务的影响轻微甚至没有,但是会产生一些声誉或合规方面的影响。
   4级为严重的业务或服务中断,涉及服务和/或操作。波及面包括财务损失、数据泄露、声誉损害并可能出现安全问题。可能会导致客戶损失。
   5级为关键业务或任务出现中断,包括服务和/或运营出现重大和破坏性中断。 可能会造成重大财务损失、安全问题、数据泄露、客户损失和名誉损失。
  在分析了三年内所有公开的数据中心运行中断(级别1到5)事件后,Uptime Institute发现IT系统和网络问题已经超过了电源成为了主要原因(见图)。
  在逐年对原因进行比较后,这种趋势会显得尤为突出。2017年,电力是28%运行中断事件的罪魁祸首。次年,仅有11%的运行中断事件的主因为停电。与IT系统有关的故障则在这两年中基本保持一致。其中,2017年32%的运行中断事件的主因为系统故障,2018年这一比例为35%。网络作为运行中断的主要原因在显著增长。其中,2017年19%的运行中断事件被归咎于网络,2018年这一比例飙升到了32%。
  Traver在谈到2018年运行中断事件数量大幅增长时指出,“这些事情之间的确是相互联系的。这也就是为什么网络中断的大幅上升会导致运行中断的原因所在。这些东西不是连接在一个或两个站点上,而是连接在三个、四个站点,甚至更多的站点上。如今,网络在IT弹性方面正发挥着越来越大的作用。
  此外,随着更多IT资源被移交给服务提供商,并且不再受使用它们的企业的直接控制,管理和操作也变得越来越复杂。Traver称:“在2018年,三分之二的运行中断事件与网络和IT有关。这是在过去几年中出现的一个重大变化。”
  深入研究数据中心的宕机时间
  Uptime Institute对导致数据中心运行中断的具体原因进行了深入的研究。在网络方面,导致运行中断的常见原因包括:
   连接数据中心的外部光纤被切断,并且未充分选择备份路由。
   主要交换机间歇性故障,且未部署次要路由器。
   主要交换机故障且没有备份。
   维护期间未正确配置流量。
   路由器和软件定义的网络未正确配置。
   无备用的单个组件(如交换机和路由器)发生断电。
  Traver指出,“错误配置的路由器和软件定义的网络是常见的网络问题。这一问题应当可通过测试被检测出来。”
  当谈到光纤被切断问题时,Traver说,企业此时往往没有意识到他们发生了单点故障。“企业可能有两个独立的服务提供商,但他们不知道,两个提供商的光纤埋在同一个沟渠中。同时,企业也没有对这一问题展开恰当的尽职调查。”
  当IT为罪魁祸首时,造成运行中断的主要原因如下:
   对升级工作管理不善,对软件级别测试不充分。    大型磁盘驱动器或存储区域网络发生故障并出现数据损坏。这可能是由硬件故障引起的,配置或编程错误让问题雪上加霜。
  负载平衡或流量管理系统中发生同步故障或程序错误。
   未能对故障/同步或灾难恢复系统进行正确的编程。
   无备用的单个组件(如服务器或大型磁盘驱动器)发生断电。
  谈到负载均衡/流量管理问题,Lawrence表示,在企业尝试将IT资源部署的更为分散时,可能会出现程序错误和同步问题。Lawrence说:“减少对单一站点的依赖性通常是企业战略的一部分,但是它们就像挤压气球一样,问题突然出现在其他地方。”
  Traver补充道,如果企业没有认真规划他们在所有平台上的应用程序和数据,或是没有展开经常性测试,那么这些问题就会发生。
  当电源是罪魁祸首时,导致运行中断的一些主要原因包括:
   雷击导致出现电涌和断电。备份软件/配置失败。
   转换开关出现间歇性故障,导致无法启动发电机,或转移到第二个数据中心。
   UPS故障和无法转移到辅助系统。
   操作错误,关闭或未正确配置电源。
   公用电力断电,随后发生发电机或UPS故障。
   电涌导致IT设备损坏。
   IT设备未配备两种互为备份的电源供给方式。
  Brown称,在以电源问题为主因的运行中断事件中,所有具体原因大家都非常熟悉。“这些都是数据中心的工程师们几十年来一直在努力解决的问题,即如何围绕这些问题进行设计,以及如何利用他们的设计缓解这些问题。”
  Traver表示,总的来说,企业需要更加关注数据中心的弹性。他说:“要知道自己的系统是如何设计的,充分理解各部分之间的关聯性。同时还要知道故障是如何发生的,以及故障发生后的应急预案。而我认为这一块是缺失的。”
  Lawrence总结道,“如今设备正越来越好,管理越来越出色,经验也越来越丰富。整个行业正变得越来越成熟。但即便如此,运行中断仍将是一个非常重要和代价高昂的问题。”
  本文作者Ann Bednarz,主要负责为《网络世界》采访报道IT职业、外包和互联网文化方面的新闻。
  原文网址
  https://www.networkworld.com/article/3373646/network-problems-responsible-for-more-data-center-outages.html
其他文献
思科将基于意图的网络(IBN)的优势引入到物联网中以帮助用户扩展、保护和优化他们的环境。  思科在近日发布了多份产品声明,将基于意图的网络(IBN)解决方案的优势引入到物联网(IoT)部署当中。《网络世界》的Michael Cooney已经对这些产品声明做了很好的总结,因此我不会再重复这些信息,我想要谈一谈基于意图的网络对于物联网的重要性。  IBN对于物联网的重要性  基于意图的网络(IBN)形
今年肯定会看到技术领导们再次关注于数字化项目,但他们为此所采取的措施不一定是成功的关键所在。更糟糕的是,最近的研究表明,数字化转型所导致的错误是企业最担心的问题。  Gartner一份关于新兴风险的报告显示,尽管企业继续优先考虑数字化项目并为其提供资金,但2/3的企业不仅未能兑现承诺,而且还暴露出“企业弱点,导致企业看到了预期与结果之间的差距。”  企业的数字化技术在其他领域也带来了挑战,技术领导
2020年最大的安全趋势是与新冠肺炎疫情相关的钓鱼攻击和以远程办公员工为目标的攻击出现了大幅增长。自从建议推广在家远程办公以来,纽约市政府需要保护的终端数量由原来的8万台激增到了75万台。随着工作人员开始使用视频会议平台,攻击者开始将Zoom、Teams等视频会议平台作为了攻击目标。  在2020年,勒索软件仍然是一个重大威胁。不过,SenseCy的最新研究显示,在已经被发现的勒索软件攻击中,许多
思科称,到2022年,移动端将占全球IP流量的近20%,部分由物聯网推动。  思科最新发布的年度全球移动数据流量预测更新报告( 2017-2022)显示,随着新技术以更高的密度和带宽投入使用,移动设备的普及率将在未来四年继续大幅增长。  其中关键的预测是:到2022年底,移动通信量将接近达到l Zettabyte的年运行率。在这段时间内,移动流量将占全球IP流量的近20%,每年将达到930Exab
对于许多IT部门而言,新冠疫情及其对经济造成的影响已导致技术产品和服务方面的支出受到限制,更严重的还导致预算直接被削减。  这促使许多IT领导人重新考虑短期和中期的战略。当前环境正迫使技术主管们考虑哪些方面可能无力承受任何削减,及希望将预算投入到哪些方面,以最大限度地利用IT资金。  如今IT支出方面的转变主要与支持大批在家工作的员工有关。虽然一些员工在地区解除封锁后已回到公司办公室,但IT领导人
最近,美国企业管理协会即EMA调查了253家企业在疫情期间使用应用交付基础架构的情况。结果发现,用户访问应用的方式发生了变化,已迫使企业对该基础架构进行了调整。调查结果发表在EMA的报告《面向多云企业的应用交付基础架构》中。本文由EMA研究网络副总裁Shamus McGillicuddy撰写,探讨了一些调查结果。  90%的企业已改变了其应用交付基础架构以应对疫情,包括加强安全和增加容量。  应用
年景好的时候,收成不错,有花不完的钱,企业很容易大手大脚。但是,当时局艰难,收入蒸发时,就要消减支出了,特别是那些曾经很有意义的巨额支出和大胆的想法。这项工作不太容易,也不会令人愉快,但如果能认真完成,结果是企业会更加灵活且高效,将以更好的姿态迎接未来。  在首席财务官来找你谈预算削减之前,你还能在11处不太显眼的地方进一步给IT预算瘦身。丢掉花哨的东西  你的网站上是不是有些额外的数据,只是为了
工信部副部长刘烈宏近日表示,2020 年,我国网络安全产业规模将超1700 亿元,较2015 年翻一番,增速领跑全球。技术创新明显提升,动态行为分析等一批前沿技术取得创新突破。  我国网络安全相关企业数量已超过3000 家。产业链条不断完善,协同效应进一步增强。网络安全领域上市企业20 余家,上市企业总市值从2010 年的不足百亿元到现在突破5000 亿元,实现超过50 倍跃增。终端安全、应用安全
盡管欧洲正在实施更严厉的违规通知规则,但与2017年相比,去年公布的数据违规数量有所减少。受影响的敏感记录数量也下降了三分之一以上,从79亿条记录下降到大约50亿条。  安全情报公司 Risk Based Security (RBS)的最新一份报告显示, 去年有超过 6500 起数据泄露案件发生,其中有三分之二源自企业部门。政府部门占13.9%,医疗部门占13.4%,教育部门占6.5%。  RBS
从长远来看,花时间为标准实践制订计划是值得的  敏捷领导和敏捷团队在敏捷开发中面临的挑战是怎样定义并遵循数据、体系结构模式和标准。有一种观点认为,由于敏捷团队敏捷迭代(sprints)的工作通常会长达2~4周的时间,而产品所有者一般会提出太多的按优先顺序排列的产品需求项,因此,很难推动数据和技术标准。标准的制定需要时间;遵循标准要求敏捷团队有足够的时间来计划技术的实施。  在一个敏捷迭代中执行,并