探索中国CIO人才现状 | 第四季调研报告
高层专访:灾难恢复成本胜过效率
2015-11-12  来源:techtarget

由于业务对IT的依赖性,灾难恢复目标恢复时间(RTO)变得愈发咄咄逼人。然而,IT专业人士主要关心的仍然是灾难恢复成本。这到底发生了什么事?

大部分的IT人员想要让自己的灾难恢复(DR)计划更加高效,并且缩短恢复时间(见下图)。然而,根据2015年Q1 TechTarget灾难恢复/业务连续性调查显示,92%的IT和业务人士表示,在评估DR产品过程中,价格是最重要的因素。

对于IT部门来说,更快的恢复时间和更高的效率意味着更高的灾难恢复成本。我们咨询了DR专家Michael Herrera,他是国际业务连续性咨询公司MHA Consulting的首席执行官。Michael Herrera为我们揭示了业务连续性与企业投资成本之间的脱节,以及如何通过快速的RTO进行协调。

谁来做出DR决策?

Michael Herrera:我希望企业能够广泛地参与进来,因为DR是整个系统存在的关键。但事实上,通常是IT掌握着大权。在许多情况下,IT试图完成整个业务连续性(BC)计划。BC目前仍然是许多企业开始着手的出发点,因为他们通常认为DR就是BC。

有关DR最常见的问题是什么?

Herrera:人们最常问的是什么是RTO和RPO,并且它们对自己的DR策略成本有什么意义。例如,今年我们有客户分别用4个小时和12个小时的RTO完成了业务影响分析(BIA),但是管理部门表示不可能,这太快了,至少得48个小时。显然他们仍然以为是通过手动操作来完成的。事实上,在IT系统相当受欢迎的今天,手动操作已经消失不见了。

通常,你至少需要Active/Active模式或者Active/Passive模式来满足24小时或更快的灾难恢复RTO。你需要系统准备就绪。过去你可能有几个核心IT系统,但是在当今世界,你有核心的馈线系统,复杂的数据以及数据运行流程。确定你是否需要某个系统的唯一办法就是运行DR测试,你需要的系统就是你的核心系统不工作时所缺少的那个。

当前数据中心的变化也不断发生波动,曾经比较关键的变化也许现在已经不再重要,但是另外一个系统开始成为关键。

2015年第一季度,TechTarget针对117名对灾难恢复工具有投资兴趣的IT和业务人员进行了调查。

为什么价格是最关心的问题?

Herrera:管理人员将DR视为一种保险:‘这是一笔我们无法控制的开销——灾难发生的几率有多大?’通常,企业选择无视业务影响分析的结果,也不可能针对理想的恢复时间目标作出更改。

通常情况下,大型企业会自己实施BIA,但是大部分选择将BIA外包。无论哪种方式,结果都一样——人们认为BC/DR并不那么重要。企业常说,我们从哪里找那么多钱来投资呢?

常犯的错误是什么?

Herrera:企业往往在他们真正需要的东西上面犯错误。DR不仅仅指服务器,其真正涉及到业务流程。而IT本身是与业务有关的,因此业务影响分析必须获得足够的认真对待。适合我们的策略是什么?对于大多数企业来说,是混合解决方案。

混合意味着部分内部DR和一些外部云。企业有哪些资源可用?例如,故障转移到一个分支网站服务器机房和云上。

“实际恢复时间”(RTA)通常比RTO长吗?

Herrera:你不需要这样做:在未来两年内采用48小时恢复,24小时RTO。你可能无法立马实现。

因此,我们不能让IT告诉我们DR测试中的RTA。通常情况下,IT不知道或者不会轻易分享信息。他们不想让业务人员知道他们无法完全恢复或者比预期多花了一天的时间。或者同理,他们可能比RTO更快,但是不想将实际的时间作为预期。

灾难恢复的成本包含什么?

Herrera:灾难恢复成本包括备份站点和硬件,或云资源,并且有很多软成本,这在资源需求期比较明显,这时候IT被困在资源和时间之间。每年要执行多次测试,并且要有后续维护。这些额外的DR成本增加很明显。

问问自己:在备份站点什么是我真正需要的?我们需要什么级别的可用性?你要知道,对生产站点进行精准的镜像不是必须的。