探索中国CIO人才现状 | 第四季调研报告
行业数据中心的挑战与重点
2014-04-22  作者:企业网D1Net 

  2014年4月17日,第22届中国数字广播电视与网络发展年会(CCNS2014)暨“第13届全国互联网与音视频广播发展研讨会(NWC2014)”在安徽合肥正式拉开帷幕,广电总局科技委副主任郭炎生、广电总局科技委副主任杜百川、中央人民广播电台总工程师钱岳林、中国国际广播电台总工程师王联、中国工程院院士总局科技委特邀高级顾问陈左宁女士等嘉宾参与会议,中国工程院院士、总局科技委特邀高级顾问陈左宁女士在大会上作出题为“面向大数据的数据中心建设”的演讲。


  大数据时代的数据中心基础设施,数据本身是一种自然资源,大数据中隐含着大量的价值,大数据已经引入新的科学门类——数据科学,大数据具备价值密度低,总体价值高有别于传统海量数据的本质区别。同样,大数据本身来源于原始数据,各类传感器,同时还有再生数据,数据中心和高性能计算机产生的数据,经过整理和组织,再经过提炼和追溯,最后形成预测、判定与决策,同时数据可以作为进一步提炼的源泉,目前Google大数据中心,大数据时代的奠基者,是行业大数据技术架构的标杆和示范,Google已经建立了世界上最快、最强大、最高质量的数据中心。


  大数据工程中,如何聚合数据?如何将大数据变小?以及如何进行大数据的价值提炼?成为了目前工作重点。


  常规数据结构相对比较简单,处理方法为模型化参数化的处理方式,大数据本身稠密与稀疏共存,冗余与缺失并在,动态与静态互现等问题存在。


  大数据与传统数据的区别以及本身的挑战给支撑他的大数据数据中心提出了相应的挑战,原来理解的数据中心有两类,一类是高性能的计算中心,这一类数据中心,从应用领域来看,是科学与工程计算,新一代数据中心面向海量的信息处理,传统高性能数据中心以数据静态处理为主,现在已流式动态数据处理为主;处理类型从计算密集为主,新型数据中心需求以数据密集和计算密集;任务特点上,传统任务比较单一,而新型数据中心任务多样、多变并且高并发。


  新型数据中心需求,应具有的特征在于:


  面对增长迅速的数据存储与处理要求,首先要有在功耗、成本容忍以及服务质量保证的前提下的高度可扩展基础架构。


  围绕数据分析、挖掘逐步“融合”、“精炼”、“提纯”过程,基础设施应由以计算设备为中心,转变为以存储设备为中心。


  容忍相当局部故障前提下,整个数据中心的可靠性乃至数据的可信性。


  对大规模设备自我管理、自我修复的自动化功能。


  有效解决数据集中处置带来的数据安全性问题。


  大数据中心的挑战:


  如何适应大数据中流式数据的高吞吐和高并发处理?


  如何提高大数据中心中心基础设施的效能?


  如何保障大规模的数据中心基础设施的长效运行?


  数据中心软件要素对数据传输、计算处理、存储管理、分析挖掘等提出了更多的要求。


  大数据中心技术趋势——融合。数据的融合就是关系型的,非关系型的数据科学,以数据融合为主要需求进行支撑,其中包含架构融合——架构扁平化;数据中心的软硬件融合,体现在RDBMS一体机在软件硬件紧密结合下能够告诉处理和节能降耗;计算融合,最早的大数据来源于搜索,需要引入更多的计算模式,包括流式计算、图计算、批量计算等等,这种数据中心就需要统一调度计算模式的融合;计算存储融合,比方说大数据实时分析,基于MPP的分布式计算;网络融合,为支持不同应用必须要用到不同网络,多套网将管理成本维护成本增加,网络融合新的大数据中心会有很好的融合,除了基础协议同时存储协议也能在上面跑;通过网卡进行远程数据访问;存储与网络的融合,在数据中心用SDN架构,控制与转发分离,网络资源虚拟化,通用硬件/软件可编程化。


  陈左宁女士介绍了她在行业数据中心构建中的构想,多数据中心信息规模急剧膨胀、各种业务数据的实时处理、海量数据的统一存储管理、业务数据的综合分析提出了更高的挑战,开放式系统设计:数据中心基础平台,遵循数据中心标准规范,实现数据中心可扩展,服务化的要求。行业大数据中心,采用一套数据中心支撑环境,多套分布在各个工程中的数据中心基础平台。