探索中国CIO人才现状 | 第四季调研报告
“双活”数据中心应“云”而生
2013-05-20  作者:企业网 

  商业银行做容灾备份已经有很多年了,但业务连续性、容灾备份一直是国内银行信息化的短板。因此,虽是老生常谈,但却历久弥新,不断有新的话题、新的关注点出现。目前在容灾备份领域,商业银行比较关注的话题是“双活”容灾中心的建立。


  何为“双活”数据中心?


  所谓“双活”数据中心,区别于一个数据中心、一个灾备中心的模式,前者两个数据中心都处于运行当中,所以称为“双活”,且互为备份;后者是一个数据中心投入运行,另外一个数据中心处在不工作状态,只有当灾难发生时,生产数据中心瘫痪,灾备中心才启动。


  “双活”数据中心最大的特点是:一、充分利用资源,避免了一个数据中心常年处于闲置状态而造成浪费。通过资源整合,“双活”数据中心的服务能力是双倍的。二、“双活”数据中心如果断了一个数据中心,另外一个数据中心还在运行,对用户来说是不可感知的。而一个灾备中心的模式,如果生产数据中心瘫痪,需要半个小时、甚至两个小时、甚至更长时间才能启动灾备中心,在启动灾备中心的时间里,用户交易会严重受损。


  “双活”与“云”不谋而合


  在国内的商业银行当中,部署了双活数据中心的银行还为数甚少,光大银行是最早开始这方面探索的银行之一。光大银行灾备体系是典型的“两地三中心”模式,目前在北京有两个规模相当的双活中心,在武汉有一个异地灾备中心。


  光大银行的“双活”数据中心的模式始建于2002年。当时还没有出现云计算的概念,但是这个思路和今天云计算的思路不谋而合。“云”的目的就是把数据中心的所有资源整合成一个资源,成为一朵云,这样用户就不知道是哪个数据中心为其提供服务。“双活”数据中心的效果也是一样的。


  “双活”模式依赖于虚拟化和云计算技术,要把应用从A数据中心迁移到B数据中心只需点一下鼠标,拖拽一下,迁移就可以完成。这项被称为“一键切换平台”技术的实现,有赖于两个数据中心必须是“双活”的。传统的灾备中心模式采用备份模式,两个数据中心的地址是一样的,或者利用域名进行切换,系统间关系复杂,切换影响较大,一般都需要停机窗口,通常是必须生产中心倒掉,灾备中心才能起来,两个中心同时起来会发生冲突。“双活”数据中心可以规避这个问题。


  在传统的灾备中心模式中,为保证备份中心随时可用,银行科技部门每年都要耗费大量经历组织演练,通常为了规避业务风险,演练都是模拟性质的。这样大费周章的演练在“双活”模式中也是不必要的,因为每个数据中心每时每刻都是“活着”的。


  “双活”数据中心的优势


  “双活”数据中心的最大优势是有效利用资源。灾备中心建设的投资巨大及每年运维成本极高,如果资源处于闲置状态,资源是相当浪费的,有了虚拟化,能够把闲置的资源整合,服务能力会提高一倍。银行系统中很多资源都是弹性需求,如基金、贵金属交易、电子支付、和网银交易,在交易火爆时一天交易量可能达到全年交易量总和。故银行系统容量规划时是充分考虑到交易峰值的,但这样在正常时间就有很大的交易浪费,以淘宝“双十一”活动为例,交易量在几分钟内就可能达到全年交易量的总和,需要系统服务能力提高十倍,这时双活数据中心和灵活快速的资源调度就充分发挥出了作用。云计算技术,让IT系统有了资源整合的能力,让系统有了充分的弹性,随时可以调度十台机器来提高服务能力,来保证交易的突发需求,以及各种突发因素造成的交易量猛增。


  有了云计算技术,不代表投入会更少,但是资源利用率会更高,系统但抗冲击能力会更强,自由调度能力会更强。


  自动化是“双活”与“云计算”必不可少的前提条件


  云计算需要自动化手段来帮助系统维护人员进行自动的资源调配。比如,通过虚拟化技术虚拟出了上万台虚拟机器,白天需要50台机器给网银系统提供web服务,晚上网银交易少了,贵金属交易多了,这50台机器要调配到另一个系统上。这五十台不可能一个人一台台调配,那可能配一晚上都配不完,就需要自动化的软件来自动调整资源分配。


  光大银行目前采用的是双数据中心同时工作的资源模式,同城的两个数据中心都投入生产系统。光大银行信息科技部系统运维处高级经理牟健君介绍说,“假如这个数据中心有5台机器工作,另外一个数据中心有5台机器处于空闲状态,我想做一个操作:让这边的5台机器停下来做日常的运维、审检,让另外一边的5台投入生产。有自动化工具以后,我点一下鼠标,这5台机器上的应用就可以立即切换到那5台空闲的资源上去,整个业务不间断,调度灵活。如果没有自动化手段,过去的切换过程需要至少半个小时。”因此,自动化是云计算、“双活”数据中心应用必不可少的前提条件。


  异地“双活”难度大


  当然,部署“双活”数据中心的难度也非常大,尤其是异地“双活”,涉及到数据同步效率问题。如果数据同步效率达不到要求,在灾难发生时就会造成一段时间的交易丢失。在异地“双活”的模式中,两地数据中心同时接纳交易,技术难度很大,需要更改众多底层程序。异地“双活”模式目前在国内的商业银行中还鲜见成功案例,但只有做到异地“双活”才能提供真正无误的服务。


  随着云计算技术的日渐成熟,越来越多的银行开始考虑部署“双活”、乃至“多活”数据中心。