探索中国CIO人才现状 | 第四季调研报告
大数据复兴IT运营分析
2016-07-04  来源:techtarget

至少在IT领域还没有出现鞋匠的孩子没有鞋穿的现象。

在过去的几十年当中,IT运维团队一直使用大量先进工具。即便如此,许多IT管理挑战似乎仍然十分难以解决。但是这些问题的“最后防线”已经被新一代工具所攻破,这些工具采用更加复杂的分析算法来描述问题并且提出解决方案。

“许多厂商在大数据和数据分析领域推出了多种新的工具,能够帮助企业解决内部运营、高可用性以及用户体验方面存在的问题,”IDC企业系统管理软件部门副主席Tim Grieser表示,“其中的创新在于从大数据和数据分析的角度考虑来自于不同源的超大规模数据。”

这些数据一部分来源于厂商自己的工具,还有一部分来自于更为广泛的数据类型,特别是“线路数据”,其中包含了大多数通过线缆或者传输协议、穿越计算机和远程通讯网络的数据。使用这些工具的最终目的在于采用一种全新方式来评估系统性能、可用性和用户体验,理解、分析、最终解决这些问题。

“理想情况下,这种全新方式能够比过去取得更好的效果,未来,用户可以预测并且防止问题的发生,”Grieser表示。这是关于服务可靠性和用户体验的问题。现在,分析工具能够收集各种信息,从终端用户到IT基础架构的运营数据以及业务方面提供的各种信息,他进一步解释道。

企业已经发现这些最新出现的智能工具能够为其带来很大好处。“最佳使用场景是排错,”他说。企业能够摆脱过去的“救火队员”的角色,从危机应对逐渐转为日常管理。

“通过分析来自于各个方面的数据,企业IT部门也许能够安静下来,找到基础架构和应用程序当中所出现问题的合理解决方案,”他还注意到,可以采用SaaS(软件即服务)或本地等各种方式进行部署。比如,作为智能IT工具的典型代表之一,Splunk提供了基于云的SaaS以及传统的企业内部智能运营平台。企业通常选择使用云环境以避免计算和存储大量数据所产生的高昂开销。另一方面,选择在本地进行部署的企业大多数是由于数据隐私和数据安全方面的限制。

“在过去的许多年当中,这些应用程序都能够帮助我们应对这些IT挑战,而现在ExtraHop和BMC等公司的产品提供了额外的大数据分析和机器学习功能,”ESG集团的分析师Dan Conde表示。

更加高效的IT部门

和其他业务功能不同的是,大数据的使用方式更加开放,IT部门只需要针对几种具体情况进行分析。这些分析结果可以被用来提升IT部门的工作效率,发现问题,提升安全性并且加快响应速度。已经发生的变化是大数据允许企业存储比以往更多的信息,网络排错软件和设备可能产生超大规模数据。

“大数据技术的兴起为整个行业带来了新的活力,我们可以看到越来越多的传统厂商对曾经发生问题的基础架构和工程方法从更深的角度进行理解并且做出改进,”ESG分析师Nik Rouda表示。

这种劳动密集型、效率低下的工作方式必须从根本上进行改变。IT部门当中的很多系统都会产生日志和数据,这些数据当中包含了系统的运行情况(以及错误),这是一个分析的绝佳机会。由于这些数据当中的绝大部分都是非结构性的,因此非常适合于使用大数据技术进行分析。数据来源非常清晰,可以通过定义“阀值”进行监控,但是通常大数据工具能够发现一些隐藏的数据类型——或者至少对人类来说不那么明显的特征。

不只是IT部门产生的数据,现在所有的数据都能够被分析。

“现在,包括Gartner在内的大多数企业中都能够看到‘线路数据’——其被视为实现IT性能和可用性管理的最重要来源;甚至比基于设备或者主机的数据来源更加重要,”ExtraHop公司市场和业务部高级副总裁Erik Giesa解释说,这家公司专注于交付IT智能和业务运营方面的虚拟报告和数据分析。

以ExtraHop需要分析的一组数据为例,其中包含了针对250个数据包所进行的实时预处理、测量和计算,需要使用不同协议和数据负载,在四个系统之间相互交换。“如果我们仅仅将上面的数字乘以十,真实环境当中也许是成百上千,那么通过了解实时系统分析每秒钟所需要处理的事务数量,你就能够体会其智能程度和规模大小了,”Giesa表示。

这种不断进化的能力是非常重要的,他解释道,因为如果使用针对单一事务的抓包和网络工具,即便是十几个人都无法完成这些测量和计算任务,更不用说每秒钟几千个事务了。针对页面加载时间、带宽使用情况、事务规模、订单ID和盈利情况等提取相关数据之后进行分析,同时确保数据库事务能够正确运行,“已经超过了传统IT运维监控工具的能力范围,因此需要使用APM(应用程序性能管理)、NPM(网络性能管理)和日志聚合产品”他还说到。原因是这些信息当中只有非常小的一部分是由应用程序或者设备记录的,因此使用代理来收集和分析这些数据是不切实际的,特别是在大规模情况下。“设想现在loT(物联网)、SDN(软件定义网络)、容器以及微服务等这些趋势,企业不能使用代理或者自助报告日志等方式来管理这些传感器、网络或者微服务。唯一能够分析这些活动和行为的方式就是使用线路数据,”Giesa表示。

“这种大数据分析技术能够起到很大帮助作用,比如,对于安全问题来说。一个经常被错误报告的偶然SQL注入问题可能不会引起管理员的注意,但是大数据分析能够迅速发现其为异常行为,”Rouda表示。

在这种情况下,管理员能够更加迅速地发现问题,并且锻炼解决复杂问题的能力——比如资源利用率问题——也就不足为怪了,他解释道。

这个领域非常适合投资,因为其在IT部门自己的控制范围之内,需要遵守内部操作流程。“其使用一项技术来改进另外一项技术——这就是其被广泛接受的原因,”他说。这种趋势已经促进一些全新厂商的出现,其中最知名的就是Splunk。同时还有许多“服务等级管理工具厂商”比如BMC,以及其他一些网络公司。

未来发展趋势

Splunk的核心平台——Enterprise 6.4——能够研究、监控和分析来源于多种不同环境的机器数据,从用户访问页面和事务处理情况到安全事件以及网络活动。其使用一系列的研究、分析、虚拟化和预封装的实际案例,帮助IT部门发现问题和分享观点。根据公司提供的资料,这些案例包括应用程序交付、IT运维、安全和合规、业务分析以及物联网等方面。超过1000个Splunk应用和插件还能够交付预封装的视图、dashboard以及工作流。

与其类似的是,BMC的SaaS平台TrueSight Intelligence使用REST API来获取IT运维和业务数据,自动学习这些系统的行为。之后将这些信息输出到图形界面,这样用户就能够查看应用程序的健康状态和性能表现以及一些关键的性能指标了。

CloudPhysics同样能够收集用户数据中心的多种数据,之后从容量、性能的角度对数据中心的整体风险和健康程度进行深入分析。此外,CloudPhysics还能够将每个客户的数据集和自己的全局数据集进行比较——这个一个包含全部匿名用户相关数据的集合。通过这种方式用户能够以其他组织的数据为基准对自己的情况进行对比分析。这种分析能够帮助用户决定是否购买新的服务器、资源的使用效率是否偏低,甚至是决定哪种应用程序最适合运行在云当中。

应用程序的重要性

核心分析对于IT部门来说一直非常重要。“我们必须监控对业务至关重要的任何数字服务,”BMC公司性能和可用性部门总裁Bill Berutti表示。

特别是最近,随着应用程序的逐渐普及以及用户体验重要性的不断增强,应用程序市场的发展带动了数据分析需求的增加。日志分析也变得十分重要,Bill Berutti再次表示像BMC这样的公司已经能够成功使用日志来分析是否存在问题以及这些问题位于应用程序或者基础架构的哪一层。

最近,随着互联网服务的大规模兴起,数据分析变得比以往更加重要。“那些大型颠覆性的公司,比如Airbnb和Uber,就是打破行业数据分析传统的极端案例,我打赌IT分析一定是这些公司业务的重要组成部分,”Berutt说到,“对于这些企业来说,如果应用程序不能正常工作,那么业务也就不复存在了。”

但是IT分析不仅局限于这些互联网业务。“零售商和金融机构也开始面临着相同的情况,”他说。

比如,过去银行的竞争优势在于ATM机数量;现在移动设备上的App使得24小时银行变为可能,其能够轻松、快速和方便地查询账户余额并且处理支票储蓄,而实现这些功能需要强大的分析能力。

一些企业的IT部门尝试使用大数据技术帮助自己完成相关功能,但是“在数据科学和机器学习方面遇到很多挑战,因为大多数传统IT部门并不具有相关技能,”他说。

前景分析

除了分析如何“修复”问题之外,另外一个主要关注点是预测性分析。过去企业能够针对这个领域当中的某个方面实现自己的目标,但是现在主流的机器学习算法已经能够从多个角度进行根本原因分析,因此能够应对大量问题,Berutti说。

机器学习能够很好地应对IT部门所面临的各种挑战,ESG公司的Rouda也同意这种观点。“使用机器学习技术企业能够查看各种网络活动,真正开始学习到底发生了哪些事情,”他还说到。

一个大型芯片制造商的案例印证了这种说法,这家公司的报告显示其每天需要面对800亿到1000亿个网络事件,因此雇佣了数十个安全专家来尝试理解系统相关动态。然而,正如Rouda所说,这种挑战是无论多少人都无法应对的。

另一方面,使用机器学习技术“我们能够将这些数据进行分组,输入不同的集群当中,而员工可以监控整个流程并且进行改进,”Rouda说,“不能使用机器完成所有工作,因为机器不可能理解所有数据的含义,但是其非常善于在不同数据之间建立联系。并且事实上,这就是真正需要进行变化的地方。”

他预测市场的首要增长点将会是厂商向其现有客户群体推销机器学习和大数据分析技术,之后进一步扩展市场规模。“每个IT员工需要负责的应用数量和数据规模一直在不断增加,但是IT预算却趋于平缓,因此这种创新能够让管理流程更加高效,”Rouda最后表示。