在云中的大数据有太多潜在的功能服务层,蔓延于许多的节点、集群和层,以致于企业很容易感到不知所措。
深吸一口气。你的第一个步骤应该是规划一个全面的云数据虚拟化基础架构。虚拟化的云分析是新时代的大数据范例。作为一种整合的方式,它可以确保统一接入、建模、部署、优化并大数据作为一个异构的资源来管理。
像其他任何的虚拟化一样,数据虚拟化是这样一种方法,它允许您访问、管理和优化异构的基础设施,就好像它是一个单一的、逻辑上统一的资源。这使您能够抽象外部接口,从内部实施的一些服务、功能或其他资源。
数据虚拟化的核心是一个抽象层,如任何的SQL虚拟化方法,支持逻辑上统一的访问、查询、报告、预测分析,和其他针对不同的后端数据存储库(如关系型数据库、Hadoop、NoSQL,等等)的应用程序。当然,数据虚拟化可能会转而依赖虚拟化基础设施的其他层,如存储和服务器平台,在某些情况下,可能遍布不同的地理位置和多个云环境。
然而,在我们正在讨论的许多层中,数据的虚拟化是典型的不“性感”的话题。但它是根本,如果你希望你的大数据云平台解决以下业务需求:
*弹性的高级分析资源
*消耗一切的资源,获取起源于任何来源、格式和图表的信息
*延迟敏捷的资源,保持、汇总和处理任何动态的和静态的信息组合
*联合的资源,绵延于整个价值链、跨越私有云和公有云
*无缝的互操作性资源,可以让你改变、扩展和演进后端数据平台,不会打破现有的工具和应用程序的互操作性
是的,这是一项艰巨的任务。显然,数据虚拟化以及数据虚拟化的基础,做起来要比谈论困难得多。另外,它的实施、管理或优化都不便宜。
基于云计算的大数据将需要日益复杂的虚拟化基础架构。这并不奇怪,大多数的数据专业人员接近这个混乱的问题的方式,与天文学家试图映射宇宙的暗物质大致相同。他们知道这是一个必不可少的繁琐的苦差事。说实话,大数据专业人员会更喜欢将其战略望远镜指向那些“性感的天体”-诸如Hadoop,NoSQL,等等-在新技术的苍穹之中,它们的光芒最为耀眼。
随着你的云中的大数据应用程序的范围不断增加,几乎可以肯定你会需要更深层次的虚拟化。混合大数据云的难以处理的异构将推动你朝着这个方向努力。在你的私有云之中,不断融入新应用的大数据平台也需要一个虚拟化层,将新的处理方式与以往的IT资产进行桥接。这将源于你正在进行的平台现代化和迁移的努力,源于你将创新的平台放到云中的需要,以及源于云供应商的产品增强。除非你能够把你所有的大数据应用放到一个“万能”的公有云服务上面,否则你将需要虚拟化以访问公有云、私有云和混合云架构。
显然,你的数据虚拟化的路径和程度,将取决于你的业务所需求的大数据环境的复杂度。此外,它还将取决于你对风险和复杂性的容忍度。
在未来的几年内,随着更复杂的分析模型、规则和信息汇聚在大数据云,该平台将成为虚拟化访问、执行和管理的核心。在这个新的世界里,MapReduce将是关键的(但不是唯一的)开发框架。未来,MapReduce将成为一个更广泛的、但在很大程度上仍然不确定的虚拟化架构的一部分,用于在线分析处理和事务计算。
目前还没有人着手去勾勒一些层、接口和抽象化,将云大数据宇宙从头到尾胶合在一起。这是另外一个艰巨的任务。