美国一数据中心断电,客户服务中断超40小时
01
数据中心的运维管理水平跟不上,
要付出多大的代价?
11月2日,全球知名网络性能与安全服务商Cloudflare发生服务中断事故,直到40个小时后,所有服务才全部恢复上线。
中断原因是Cloudflare租用的Flexential数据中心,在当日凌晨四点左右发生了变压器接地故障,导致机房断电。
据说在尝试恢复供电的过程中,有三件事阻碍了发电机的重新启动:
▪ 首先,由于接地故障导致电路跳闸,因此需要实际进入并手动重新启动;
▪ 其次,Flexential的访问控制系统没有备用电池供电,因此处于离线状态;
▪ 第三,现场值守的夜班人员中没有经验丰富的运维或电力专家,只有一名保安和一名才刚刚上岗一周的技术人员。
由于发电机没有完全重新启动,UPS电池耗尽,数据中心的所有客户都断电了。在整个过程中,Flexential从未告知Cloudflare该设施存在任何问题。
更加不幸的是,当天中午,当 Flexential试图重新启动Cloudflare的电路时,发现断路器出现了故障,而现有的断路器库存不够了,需要临时采购。
直到断电发生的11个小时后,Flexential才终于更换了发生故障的断路器,恢复了两路市电供应,确认电力供应正常。Cloudflare也随之开始逐步恢复服务。
这事儿一出,让人不禁感叹Flexential这家数据中心的运维管理也太不靠谱了。不专业的供电方式、让缺乏经验的新员工独立值班、缺少零部件、不与客户及时沟通都加深了本次事故的严重性。想必Cloudflare经历过这次“灾难”,也要重新考虑是否续租了。
数据中心设施复杂,管理难度大,专业性强,必须建立规范的运维体系和管理制度、配备专业度高的运维团队,才能真正保证数据中心安全、高效运行。
02
人手不要“省”
“忙”,用来形容数据中心的运维工作再合适不过。要保障业务的稳定性,除了要求运维团队7*24小时进行轮班值守、实时监控系统运行情况、对基础设备设施进行巡检,还需要电气、暖通、弱电等系统的技术人员对机房基础设施提供运维技术支持、解决技术问题、进行优化改造工程等。因此,充足的人手是至关重要的。
运维团队的配置应根据数据中心的等级和SLA(服务要求协议)来确定,要注意:
1.数量:必须有足够数量的合格员工和/或供应商来执行运维工作;
2.资质:所有工作人员必须具备必要的经验和技术资格;
3.分工:每个岗位的角色和职责都应是明确的。
高等级以及具有一定规模的数据中心,每个班组应配备具有电力、暖通、弱电专业能力的运维人员,以达到“即时应急响应”的工作状态。等级相对低的机房,每个班需要至少配备一人,达到“即时报警”的工作状态。关键管理人员或关键岗位人员应采用A、B 角色配置,以保证工作连续性。
03
战斗力是“练”出来的
人手够了,但真碰到事儿,能扛得住吗?
还是得练!
培训和演练可确保所有人员(包括供应商)了解在数据中心工作的政策、程序和特殊要求,对于避免计划外停机、确保对预期和计划外事件做出正确反应至关重要。
运维团队应针对所有可能发生的故障场景制定完整的应急预案,包括环境(火灾、逃生、防台防汛等)、电气、暖通、消防、弱电等专业的应急预案。然后,运维团队应对应急预案进行定期培训及演练,在条件允许的情况下尽量真实地处理故障,不断优化、完善应急预案的场景及有效性。
对新员工,更要进行完整严格的上岗培训。数据中心禁不起“试错”,实习或新入职员工禁止独立执行相关工作任务。管理者也不要松懈,应积极参与行业交流,了解行业最佳的运维管理实践,并从行业故障案例中总结经验,做好自身整改。
为了推动整个运维团队技术和素质的发展和改进,有必要建立人员的关键绩效指标,定期对所有人员的短期和长期绩效进行评估,奖优罚劣。
中科仙络深耕数据中心行业16年,运维团队超过700人,为超过30家数据中心提供长期运维服务。如需专业的运维咨询和运维外包服务,欢迎联系中科仙络!
咨询热线:400-161-1386
关于中科仙络
中科仙络智算科技股份有限公司成立于2007年,为客户提供有关数据中心基础设施的技术咨询和专业服务。中科仙络拥有值得信赖的基础设施领域专业团队和上千个咨询、测试、运维项目积累的实践经验,深刻理解国内国际相关标准。
◾ 核心业务
数据中心全程咨询 | 权威认证 | 测试验证 | 运维服务 | 节能改造 | 机柜托管及云服务
期待与您合作,打造高质量数据中心园区!
咨询热线:400-161-1386