通信运营商数据中心规避故障的运维心得 | 聚焦可靠性,共话安全高效



本次会议的主题是:“数字赋能 智慧运营 协同创新 促进发展”,由中国通信企业协会指导,中国通信企业协会通信网络运营专业委员会、无线接入系统专业委员会和通信设备循环利用专业委员会联合主办。
中科仙络运营服务中心总经理 刘术文 受邀出席并分享 “安全高效的数据中心运维实践”,通过案例经验,与参会的通信运营企业、网络服务提供商等共同探讨标准化、规范化、系统化的数据中心管理运维。

数据中心前介引入
运维前介指在运营商的数据中心交付前,以最终运维角色参与到项目中,提前入场进行相关安装检查,设备功能验证,资料收集。检查包含供配电、应急发电、暖通、给排水、消防、弱电等系统。
设计/交付前期考虑不足,后期可能存在很多问题:
▪ 电池安装存放环境差,故障率高
▪ 冷机水流量开关安装位置错误,水流经过弯管时会产生旋流,造成冷机停机
▪ 空间狭小,阀门无法操作、检修
……
▪ 改造成本:施工没有从后期运维角度考虑,造成部分设备安装完成后不具备检修条件,后期整改成本高
▪ 遗留问题:接维问题界面划分不清,责任方难判定,整改周期长,导致问题搁浅,遗留长久隐患
▪ 初期风险:运维人员胜任角色所需时间长,再加上培训学习不足,运维初期风险高,操作不熟练,演练缺失,编辑及优化运维资料耗费周期久
建造
▪ 现场检查各子系统设备在安装、外观、标识、线缆路由、端子连接等是否存在单点和系统隐患
▪ 提前识别关键风险,提出合理整改建议,提高安装质量
▪ 对隐蔽工程进行现场查验,资料留存
▪ 对原设计要求现场设备施工变更内容进行记录
验证
▪ 全程见证同类设备的首次开机调试
▪ 审查完成的开机调试报告
▪ 对于开机调试过程中产生的缺陷,持续追踪更新状态
▪ 参与测试单位编制的测试方案审核
▪ 现场见证跟踪单元系统测试
▪ 参与审核联调方案,参与测试预调工作,现场见证跟踪系统联合调试问题处理方案和进度
▪ 审核测试单位提交的测试报告及测试数据等交付物
成果展示
▪ 检查记录单
▪ 影像资料记录
▪ 设备检验报告收集
▪ 隐蔽工程资料留存
▪ 问题记录单追踪
▪ 问题分析整改记录
▪ 前介汇报结论报告
▪ 运维资料输出
▪ 提升接维人员质量

数据中心运维实践
运营商的数据中心运维管理体系需要包括人员管理、培训管理、流程管理、运行维护管理、计划协调管理、QEO管理等。
下面是几个常见的管理经验分享:
变更是数据中心运维工作的常态,任何人为改变数据中心运行现状的行为都属于变更。变更可能存在风险,需要进行风险控制。
▪ 变更管理流程:

▪ 变更管理重点:
风险评估、风险规避、回退;
变更方案(checklist)审核;
不同等级的变更获得不同等级的变更授权;
设备状态改变后的确认和验证。
库房包括化学品库、工程样品库、备件库、工具耗材库、油料油品库、工具柜、钥匙箱、应急物资库等
– 建立相应的管理台账
– 工具作为资产挂靠到指定负责人名下由其监管
– 工具存放在运维监控室(或中控室),借出或归还需详细记录
– 工具每月盘点
– 备件库需有专人管理
– 备件领用归还需详细记录
– 损坏备件需及时归还库房指定区域保管,严禁随意丢弃
– 设定备件最低库存警戒线
– 备件库定期盘点,建议每月盘点一次
与会人员驻足中科仙络展台,全面咨询了解安全高效的运营商数据中心案例经验,交流沟通设计、建设、运维、节能等话题,共谋合作。