探索中国CIO人才现状 | 第四季调研报告
DCIM在云时代的应用
2013-04-15  作者:机房360 

  行业分析公司Gartner预计,DCIM市场规模到2016年将会达到17亿美金。在DCIM市场,以艾默生网络能源旗下Avocent为代表的厂商已经推出了Trellis这样成熟的DCIM产品,为云时代的数据中心管理勾勒出了清晰的发展轨迹。


  DCIM:整合IT和关键基础设施管理


  在数据中心业务和设施快速发展的同时,相关的运维方式和工具却没有跟上步伐,导致诸多问题的产生,其中最常见的是IT和Facility分开管理。根据IDC的报告,有58%的数据中心将IT设备和Facility设备的管理分成了不同的部门。这种现象在国内的三大电信运营商身上更加普遍。这种人为的组织架构划分虽然在一定程度上有利于人员管理和权责划分,但是却增加了部门之间的沟通成本,降低了数据中心运维的效率,甚至提高了数据中心发生事故的风险。


  另外一个常见的问题是数据中心使用离散的管理工具。比如采用Excel进行资产和连接关系的管理,利用Visio或者AutoCAD进行数据中心的可视化建模,了解设备的存放位置,等等。这种管理方式虽然相对简单、成本低廉,但是却带来了多方面的问题:1)对数据中心管理者而言,没有一个统一的视图获得所需要的信息,维护多个离散的工具也提高了管理和拥有成本;2)不同系统之间的数据难以关联和共享,在制作报表和业务预测的时候尤其困难;3)工具的不专业造成对数据中心数据的维护非常痛苦,需要花费大量的时间去更新数据,保持同步,甚至新老数据彼此发生冲突。


  相对于传统的数据中心,云时代的数据中心在架构设计上更加弹性化。为了满足业务可持续发展的要求,降低TCO,提高业务灵活性,云时代的数据中心采用了更多如虚拟化、模块化等技术,使得UPS和空调等基础设施和服务器、存储、网络等IT基础架构之间的匹配更加的困难。因此对数据中心管理者而言,更需要有一个统一的DCIM平台同时管理IT和基础设施,实时监控设备的容量、功耗、空间、承重等信息,从而防患于未然,提高数据中心的可靠性。


  DCIM带给客户的价值


  目前市场上大部分的DCIM解决方案如Avocent的Trellis平台在功能上均采用模块化的设计,客户可以根据自己的需求选择适合自己软件功能模块。除了模块化的设计,一个好的DCIM解决方案要能够在OPEX、CAPEX以及人员和流程管理方面给客户带来价值。我们以Avocent的Trellis平台进行分析。


  1)OPEX


  首先,Trellis平台能够监控数据中心的PUE等关键能耗指标,同时能够实时查看IT设备和基础设施设备的能耗,从而使管理人员及时掌握能耗状况,实现科学决策。


  其次,Trellis平台能够通过IPMI等接口读取到服务器的CPU占用等信息,可以发现在数据中心空跑和低负载的服务器,从而对这部分服务器进行整合或者下架,提高设备利用率,降低数据中心功耗。同时通过结合IT设备的生命周期和服务器的能耗信息,可以淘汰一些旧的、计算能力弱却又能耗较高的服务器,进一步节能增效。


  最后,Trellis平台继承并增强了传统动力环境监控系统的功能,能够实时监控IT设备和基础设施设备,比如在夜晚或者虚拟化迁移的过程中,对一些能耗降低的区域,可以考虑对该区域的模块化UPS进行休眠,以及对空调系统的风机进行调速,甚至关闭部分空调终端,从而节约能源。


  2)CAPEX


  对于云业务的数据中心而言,每1U位都是宝贵的资源。尽可能提高设备的利用率,延长数据中心的寿命,就能提高投资回报率,增加营收。


  Trellis平台的资产管理功能可以对数据中心进行可视化建模,对数据中心的电量、制冷、空间、承重等容量进行追踪,并对供电和网络等连接关系进行管理。由于数据中心在设计时都层层考虑余量以提高可靠性,再加上服务器运行并不能达到它设计的铭牌功耗,因此往往每个机架的容量并不能够被充分的利用。Trellis平台提供的这种实时的精细化管理功能可使得用户摆脱过去手摸、用眼看等粗放的判断方式,实时了解每个机架和整个数据中心的资源消耗情况,提高资产的利用率,延长数据中心的寿命,节约投资。


  3)人员及流程


  人员和流程也是数据中心运维过程中需要考虑的重要因素之一,UPTIME的调查显示,在数据中心的安全事故中,有70%都属于人为因素。Trellis平台提供了对数据中心变更和流程管理的平台,在实施数据中心变更时,客户可以在Trellis工具中对变更中涉及到的每一步人员和流程进行管理和审批。比如在上架服务器时,Trellis可以利用其自身采集到的数据对供电、制冷、空间、网络、承重等资源进行步步验证和审批,并在实施前进行模拟操作,从而提高变更的可靠性,减少数据中心的实施错误。另外,Trellis平台还能同时对API和ITSM的人员和流程进行管理,最大程度提升数据中心管理的效率。


  从长远来看,为了提高人员和流程的效率。DCIM平台将会和KVM、SP以及串口管理等数据中心远程管控的平台相结合。比如当DCIM平台监测到某台服务器存在异常,可以直接在DCIM平台打开KVM的session,从而对该服务器进行操作。这样会大幅减少人员在不同平台之间切换,以及设备定位的时间,进一步提高人员和流程的效率。


  选择DCIM解决方案需注意事项


  目前,随着人们逐渐认识到DCIM重要性,越来越多的厂商也开始提供DCIM的解决方案。客户在选择DCIM解决方案时除了要考察前面提到的功能价值之外,还要考虑厂商提供的是不是真正的平台化的DCIM解决方案。如果是通过集成不同的软件来达到所谓的DCIM功能,甚至不同功能软件之间还采用不同的数据库,这样的DCIM并不能为客户带来真正的价值。


  另外,DCIM解决方案的成功很大程度上依靠于厂商的工程实施能力以及后期的服务能力,客户应该尽量选择一些大的知名的DCIM厂商。同时,客户还要随时关注DCIM的市场动态,了解DCIM发展趋势,比如在今年3月,艾默生宣布和IBM达成战略合作关系,将旗下DCIM解决方案Trellis和IBM的ITSM解决方案Tivoli进行深度整合,这预示着下一代数据中心管理系统中ITSM和DCIM将会更好地融合,甚至采用同一个CMDB(ConfigurationManagementDatabase,配置管理数据库),从而最大程度提升客户价值。通过了解这样的前沿动态,客户能够做出更加科学的决策,从而选择适合于自身的DCIM方案。