作者注:该故事基于真实事件。每个细节都来自我的学生和我获得的一手事实。
凌晨三点,我的手机收到一封告警。自从我们安装了新的数据中心基础设施管理系统后,每晚我都能收到十倍以上的告警,但都不是很严重的问题。但这次不同,我们主数据中心的温度虽然都在ASHRAE的允许温度范围内——但高于公司运营限制,而且还在不断上升。
财务部门在有人确定既定标准与设计之前就决定了我们新数据中心的预算,我们不得不经常削减其中的灾难恢复策略。我曾坚持要求额外的空调以及模块化的不间断电源系统(UPS)冗余。除了这些,设计师认定我们在Uptime Tier III级别标准,但我们也没有理由去花钱来获得认证。
我通知了保安。他们也收到了相同的告警,但没有一个人能够定位问题。在叫醒了设施经理,他表示会安排人员到场后,我穿好衣服并前往设施。
压力与无力感
一小时后,我走进那个感觉像沙哈拉沙漠的数据中心。灯光到处闪烁,服务器所有的风扇全速运转,我们10台空调有2台出现了故障。一些服务器已经自动关机了。我突然意识到本该落实到位的灾难恢复策略已经开始崩溃。
数据中心基础设施管理显示的内容令人困扰,而且图形用户界面并没有任何意义,用户登陆后的首菜单后,没有看到问题。一大串数据显示温度已经持续升高了数小时。为什么我没有更早得到告警?我发现一张看起来像天书的电气图,但我知道这个可能是UPS系统。我知道从那里可以找到我们服务器机柜的面板,但并不知道具体的控制机制。墙上还有一些电器面板,但标签没有任何意义。“LBTA-3”可能是任何东西,而且面板门被锁住了。
设施与IT不匹配,数据中心就崩溃了——特别是在紧急情况下。解决冲突的一种方案是让某个IT团队成员也对设施管理负责。另一种方法是简化两部门之间的沟通。
设施工作人员赶到现场后,他证实了我已知道的事实:没有足够能源来支持我们所有设备。他检查了所能找到的断路器,没有发现任何错误,但在没有电工的情况下我们无法进一步排查。这时候只好继续打电话给设施经理,接着等电工到达。
一台接一台,我关闭了服务器,避免灾难性崩溃发生。不久电工到了,而且他知道电路板在哪里——那扇我们无法进入,只有靠他的特殊钥匙才能打开的门后面。他开启了大门,里面很凉快。这间同样是UPS室,而里面只有一台空调在运转。单台空调意味着我们的冗余UPS被安置在非冗余冷却环境中。
事情升温
在电工重置了跳闸的主断路器后,空调开始恢复运作——但好景不长。火苗从电箱面板的小裂缝处冒出。我们的吸气式烟雾探测系统如果及时通知我们事情严重了,我们就能在主消防系统释放灭火气体之前解决问题。烟雾迅速弥漫整个数据中心,伴随着震耳欲聋的告警声。但在没有任何预警的情况下,主系统已经开始气体释放倒计时。由于数据中心内没有着火,我按下了重载按钮,但只有倒计时被重置了。消防员出现在门口。只有空调电源出现问题,不是UPS或服务器电源,但他们立刻到达了大红色的EPO(紧急电源关闭)按钮处。我朝他们大喊,但他们还是按下去了。几秒钟后,灭火气体释放了。电工赶往地下室切断机房的主供电,而消防员正在往燃烧的配电箱中浇灌泡沫。
在DR站点遭到冷遇
当外海办事处同事通过越洋电话询问我发生了何事,为什么他们无法访问公司电话时,我向他们保证,根据我们的灾难恢复策略,需求会被转发到灾难恢复站点。然而,虽然我们已经签约了站点,但我们实际并没有进行任何传输操作,就是我们还没有转移IT基础设施——无论是物理的还是虚拟的——到DR站点。当我打电话给DR供应商宣布紧急状况时,他们告诉我站点没有热维护,也无法随时上线。我们一直都在做日常数据备份到灾难恢复中心,但需要时间让我们进行用户转移操作。而且我们需要自己的员工到场才能进行。
当数据中心灾难发生,必须与组织的其余部门进行通信。通过创建通信树计划来避免混乱,也可以通过自动通知系统来告知数据中心灾难。
在电气室,火已经扑灭,电源被关闭,我们需要靠应急灯照明才能工作。电工在移除交换板的面板后,发现总线已经烧毁,把备用总线也烧毁了。我知道现在唯一的选择就是让IT服务在DR站点恢复运转,并重新评估我们的灾难恢复计划。
研究表明,75%的数据中心故障是人为错误,这意味着我们可以从他人的经验中学习,包括上述事件。