现如今的数据量增长以大爆炸的速度迅猛增长。据调研显示,2006年至2011年之间,全球范围内的数字数据量呈指数级增长趋势,已经从200艾字节增长到近2泽字节(10倍的增长),而预计到2015年,可用数字数据将逾8泽字节。有近70%的雇员总数超过500名的企业均声称,他们正管理着超过100TB的数据,而有近40%的企业表示他们目前管理的总数据量超过了1PB。
即使如此,这些数据量与那些世界领先的公司所正在生产和管理着的惊人数据量相比较仍然是苍白的,而这都要归功于云计算、Web2.0、高性能计算和大数据的出现。现如今的数据量是如此的惊人以至于传统的数据中心如果没有巨额投资迅速的升级到灵活的、可扩展的解决方案的话,正在变得过时。
数据分析的重要性
除了可扩展性的问题,企业还面临一系列其他的挑战,这包括对大量数据信息的组织、备份和恢复等。但也许其中最重要的挑战是如何分析和关联数据,来改善企业的决策和促进利润的增长。数据分析是企业在模拟用户行为方面进行的模型努力,以便改进生产,销售和营销决策,并避免用户对企业产生消极的印象和发生其他欺诈活动。
通过数据整理,找出规律和趋势,以采取相关的行动是至关重要的。那些成功进行数据分析的企业很可能在未来站在领先决策的制高点。
数据中心的演变
随着数据量的飙升和企业试图适应这一迫切需要分析如此海量数据的趋势,数据中心被迫已经经历了一系列的演变以应对不断变化的需求。除了不断调整数据中心的存储容量来处理如此庞大的数据量之外,数据中心体系结构必须适应更快和更强大的数据分析需求。
要理解这一演变,探索一下数据中心从其最基本的根源发展到今天拥有巨大设施的历史,以及在这一过程中所经历的基本技术原理的变化是相当有用的。
最早版本的数据中心只不过是一台电脑包含一个CPU、内存缓存和存储的主机。彼时尚未有网络的概念,所以数据中心的所有功能都包含在一个中心位置。
而随着网络被引入,将存储元件从网络上的计算组件进行分离变得普及。这较之与CPU捆绑在一起,可以让专用的存储的优势得到充分的利用。
然而,在过去十年,数据量的增加以及随之导致的数据分析需求的相应的增加再次改变了典型的数据中心的结构。现有互连技术过于缓慢,无法适应实时(甚至相当快)的处理大批量的数据需求,以及分析信息相关应对措施的要求。大多数数据分析的请求需要几周的时间来完成,届时信息利用为时已晚。
为了解决互连性能较差的问题,数据中心解决方案开始提供将存储捆绑到计算服务器。通过将计算和存储之间的距离降低到接近零,使得企业获得了立即访问数据的能力,从而实现更快的分析和提高他们的业务决策能力。
然而,转移到更为聚合的数据中心也带来了相应的惩罚。新的服务器提供较少的灵活性、成本高、浪费了更多的存储空间。当固态驱动器(SSD)存储成为存储技术的选择时,其在计算和存储之间提供更快的性能,维护聚合的数据中心的成本变得更加昂贵。
高速互连促使分解
由于诸如InfiniBand、RDMA和RoCE(RDMA聚合以太网)这样的高速互连技术,使得数据的发送和接收速度高达56Gb/s,甚至100Gb/s的高速接收数据也成为可能。此外,几乎没有任何延迟,在这样高的互连速度几乎连小于1微秒的延迟也没有。
由于互连的改善,使得数据中心分解再次成为现实。其现在可以在不影响性能的前提下将存储移动,远离计算。数据分析仍然可以接近实时的进行,因为存储和计算之间的互联速度足以支持这样的要求。
数据中心分解的好处
数据中心分解存储的优势是显着的。通过将存储与计算分离,IT管理人员现在可以更灵活地升级、更换、或添加单个资源而不是整个系统。这也使IT管理人员能够更好地规划未来的发展,只在必要的时候增加存储,然后更好的利用现有的存储空间和预算控制。
此外,现在可以根据数据需要量身定做所使用的存储器类型。虽然必须瞬间使用SSD存储数据是有道理的,但也有很多不经常访问的数据,为此,用SSD存储这些未充分利用的存储数据会造成是不必要的昂贵成本。对于这样的后端数据,其需要大量的容量,对于访问速度要求不高,返回到采用速度较慢,但便宜得多SAS或SATA存储是有意义的。
利用高速互连技术,将存储从计算服务器分解大大降低了数据中心总投资成本,提高了存储的利用效率,增加了存储栈的弹性,并允许数据中心以随收随付的模式规划未来。