探索中国CIO人才现状 | 第四季调研报告
存储服务器双管齐下
2013-05-16  作者:存储在线 

  虚拟化和云计算能提取IT架构底层物理资源,这可以有效地提高服务的工作效率。但是提取资源对架构会造成影响,甚至会降低设备的性能。


  就像飞行员在雾中驾驶飞机时,需要操作仪表盘来完成安全着陆一样。存储管理员也需要适合的工具来监控虚拟化和云存储。但并不是所有的存储管理产品都能提供这样的功能。


  TeamQuest公司的业务发展部门负责人戴维·瓦格纳说:“虚拟化环境中的一个关键问题是在存储和服务器上,虚拟化提取的特点就是‘多到多’。这在选择与虚拟机相关的存储设备,确定它们的型号,确定部署它们的时间,完成复杂的规划,排除性能故障时会有一大堆问题。若是虚拟机中有一个因素不断改变(在进行资源调度,VMotion在进行管理时会出现这种情况),属于池或卷的一部分的实际物理LUN也是非常容易改变的,操作手册上的各种方法实际上并没有多大帮助。“


  虽然市场上有大量的管理工具和用户服务器或存储设备,但是在虚拟化和云环境中,你所需要的工具要能同时监控服务器和存储设备,同时还要能发现它们是如何相互影响的。


  为了实现这一目标,TeamQuest推出了存储能力管理(SCM)解决方案,提供一个单一的面板来监控SAN存储和架构上其它相关设备的性能表现,当然也会监控各类应用,虚拟服务器,物理服务器和存储系统的性能表现。通过这种方法,管理员们可以更容易地进行分析,排除故障,管理以及优化虚拟云环境。


  SCM目前支持IBM和EMC的存储系统,对日立系统的支持也在不断完善中。瓦格纳说:”目前,我们细分了服务器和存储上的数据采集,使它们分离开来。这样,我们有能力实现自动分析,允许横跨存储和服务器进行性能和容量的深度分析,这涉及到在服务器或者存储(池,卷,LUN等)上的工作负载,虚拟机,以及服务性能。“


  TeamQuestSCM解决方案包括两大技术——TeamQuest调查者自动能力分析软件和TeamQuestCMIS(容量管理信息系统)。它还采用了最近才发布的TeamQuest性能指标(TPI)—它能基于电脑系统的队列性能以从1到100的数字来对电脑系统的健康情况做出简单的指示。


  SCM能计算出每个服务器,每次工作负载,每个虚拟机,以及每次间隔上与排队时间相对的服务(通过分析工作负载,系统,虚拟机来实现),并能自动判断出资源(CPU,IO)的任一或所有排队(等待时间)发生的时间和场合。无论发现了什么样的等待情况,它都能自动进行进一步分析。


  所谓的进一步分析包括查看IO的等待时间,接着查看它是否发生在服务器端。举个例子,如果在特定的时间周期内发生了IO等待,但是服务器和虚拟机的IO并没有相应的高峰存在,那这排队等待情况一定是发生在设备之外。在这种情况下,SCM就会自动分析SAN存储的性能数据,查看是否是它的前端和后端发生了冲突。这种情况发生在工作负载,服务器,虚拟机的IO出现等待的情况下,在特定的时间,出现了等待情况。


  这个过程是可逆的——从存储设备上倒推回来,检查服务器,虚拟机,工作负载,或服务是否被影响到了。瓦格纳说:”其它的解决方案仅仅是检查存储或服务器,它们不具备TPI,不能自动检查所有的等待情况,它们也没有先前提到的前后端分析能力。如果没有SCM的话,用户们不得不把这些特殊的”大问题“集中起来,把他们的存储人员,应用和服务器人员集中起来,他们都得通过手工的方式——这时要用到从互相分离的设备中提取出来的数据——对比这些数据来确定潜在的原因。”


  和其它工具的整合


  现在市面上有大量的只针对存储的管理工具,但是它们当中几乎没有几个能同时用于服务器中。如果用户已经有了这样的工具来管理他们的SAN,那他们只需采用TeamQuest用户代理产品来从其它的SAN工具中采集性能数据,并把它们和服务器性能及容量数据放在一起分析。但是尽管用户可以采用这种方式管理数据,它还是比不上采用一整套的SCM解决方案。


  瓦格纳说:“市场调研部门不断追踪市场的改变,提供最新的信息。这就要求用户们不仅要理解虚拟机和特定存储设备之间的关系,还要随着时间的变化注意到产品配置的改变。”