美国联邦政府数据中心的KPI
独家视角
▪ 10篇独家解析
▪ 以新锐深度视角读懂行业
▪ 增强数据中心的可靠性和服务能力
/ 特邀作者:程小丹 /
中科仙络 董事长、LEED 数据中心顾问(中国)委员会 秘书长、清华海峡研究院数据中心智能营造研究中心 主任
对于政企数据中心管理者来说,如何建立一套有效的绩效评价体系,是一个不小的挑战。
美国联邦政府为了降低数据中心建设运营成本、提升信息化效能,在过去十几年也做了很多的管理努力。了解一下他们的做法和经验教训,或许可以给我们一些启示。
美国联邦政府是有个首席信息官(CIO)岗位的,属于美国总统行政办公室下面的管理及预算办公室(Office of Management and Budget, 简称OMB)。CIO对于联邦政府的数据中心建设及运营预算承担指导和管理职责。
我们今天主要研究一下来自联邦政府CIO 2019年6月的一份备忘录(M-19-19)。这份备忘录提出了联邦政府数据中心建设和管理的主要策略以及核心的绩效管理指标。
从2010年开始,美国联邦政府对于数据中心提出的主要策略之一,就是要求下属机构尽量控制新建机房,同时合并和关闭25%的等级数据中心和60%的非等级数据中心。
▪ 这里的等级数据中心借鉴了Uptime Institute的标准,只要满足Tier I 要求的,都算等级数据中心。
▪ 其他连后备电源都没有的简单服务器机房,就被定义为非等级数据中心。
联邦政府24个直属机构最多时拥有2368个等级数据中心,9798个非等级数据中心(数据来源:美国政府GAO-19-241),共计12166。到2018年底,已经关闭了6250个数据中心,另外有1200个计划关闭。这些努力使得联邦政府数据中心费用在2016-2018三年间节省了23.6亿美金。
由此可见,在对数据中心进行管理的第一阶段,联邦政府采用的是比较大刀阔斧的“关停并转”策略,减少部门间重复建设,利用虚拟化技术和云计算服务,大幅提升数据中心的效能,取得了不错的效果。
当然,这种措施的边际效应迟早还是会出现的。在2019年的这份备忘录中,联邦政府就认为再往后的数据中心整合策略可以获得的收益将会下降。同时,他们也意识到很多特殊用途的数据中心,比如严重依赖本地即时数据的数据中心,气象监测数据中心、交通控制数据中心等,不适合进行整合。因此,到2019年,联邦政府将更多的注意力转向优化运营的策略。
对于既有的数据中心,如何优化运营,很大程度上需要靠绩效指标来作为指引。联邦CIO总结了此前几年绩效考核的经验教训,做出了以下指导:
新增KPI
可用性
联邦CIO认为,在商业领域,数据中心服务商重要的考核因素就是设施可用性。大多数服务级别协议都包含对服务可用性保证的明确承诺。至少,联邦政府应该准备提供与私营部门数据中心和云服务水平相当的服务。
OMB将要求各机构报告每个数据中心的计划可用时间,以及报告期内该数据中心的任何计划外停机时间,也以小时为单位。还有由于灾难、系统故障、网络安全事件或其他负面事件导致的设施不可用时间。此指标将跟踪数据中心的可用性,而不是单个服务器或应用程序的正常运行时间或可用性。
更新KPI
数据中心能耗监测
联邦CIO认为能耗监测给能耗管理和可用性管理提供了基础的支撑,因此,要求所有数据中心安装类似于DCIM的监测系统。
不再考核的KPI
PUE
此前,联邦政府把PUE作为考核指标,要求既有数据中心的PUE目标为1.5,新数据中心为1.4。但后来,联邦第13834号行政命令撤销了该目标。
联邦CIO认为PUE指标并不总是适合在多个设施或机构之间进行比较。冗余水平、地理位置、天气、一年中测量的时间甚至建筑等因素的差异都可能会对设施测量PUE产生影响。而且,温暖地区数据中心的PUE一般会高于低温地区,但很多政府机构的数据中心选址要考虑是支持机构的主要职能。
因此,联邦政府会继续收集PUE,用于统计研究目的,但它将不再为PUE设定总体目标,也不会孤立地使用此指标作为良好管理实践的考核。联邦政府更鼓励在投资回报允许的情况下,各机构积极实施节能改造和节能运营措施。
同一数据中心PUE的改进数据会更加有意义。
更新KPI
服务器利用率
联邦CIO责成各机构识别和报告每个数据中心未充分利用的生产服务器的数量,并期望各机构随着时间的推移减少这些服务器的数量。用于备份、待机、开发和测试的服务器对运行良好的企业信息系统至关重要,因此它们不会被包含在这一指标中——但为了提高透明度,各机构必须将这些服务器作为其数据中心库存的一部分进行计数和报告。
在数字化已经成为常态的今天,政府机构对于数据中心可用性应该提高重视度。以前的政府信息化更多只是传递政策,或者作为市民沟通窗口,实效性要求不高。但现在的健康码、行程码这类的功能都要求政府数据中心具备金融级别的可用性,以维护社会的稳定运行。
同时,随着政府数据中心规模的加大,能耗监测和节能措施也会更加重要。节省能耗简单有效的方式是对现有服务器进行盘点,减少无用的应用程序,移除无用的服务器。
最后,各地的PUE环境不同,基础不同,在KPI指标上可以更关注节能增量。
制定更有效合理的KPI体系,从而切实保证政企数据中心的健康可持续发展。