探索中国CIO人才现状 | 第四季调研报告
传统企业大数据建设探讨
2016-03-25  来源:e-works

大数据的应用范围广泛,例如:在制造行业,企业通过对客户个性化需求和市场动向进行大数据进行分析,可以有效管理采购和库存量,减少因盲目生产而导致的经营损失;在政府行业,通过对数十年的降雨、气温、土壤等气象数据和农产品生产数据进行关联分析,可以预测未来农产品的生产趋势,辅助政府做出激励措施、农产品存储量和农业服务等决策,大数据的巨大价值促使很多企业把大数据技术和应用提上建设日程。但是,传统企业对大数据技术及应用还处于起步阶段,很少有成熟的企业模式或应用案例可以借鉴。因此,进行大数据建设的咨询、规划和解决方案对传统企业就非常重要,在大数据的建设方面,我们认为需要分阶段解决三个问题,即:技术升级、数据整合和数据运营,如图1所示。

图1 大数据建设金字塔

一、技术升级

大数据有4V特征,即体量大(Volume)、种类多(Variety)、价值密度低(Value)和处理速度快(Velocity)。

大数据4V特征使得现有的传统软件工具无法提取、存储、搜索、共享、分析和处理海量的、复杂的数据集合,传统的商业智能BI就是常用的软件工具。

图2 传统BI数据库架构

传统BI采用的数据库架构(图2所示)很大程度上依赖于昂贵的商用硬件和软件,如:IBM的服务器、Oracle的数据库软件和EMC的存储设备,这就是通常所说的IOE架构。IOE架构实际上存在几个问题,包括:昂贵的软硬件成本和服务费用;可扩展性有限,处理的数据量为TB级,无法支持PB级数据应用;硬件平台兼容性差,不同厂家的系统无法跨平台移植或相互兼容;非结构化数据处理能力不足等。而具备高性价比、高兼容性、高扩展性的X86硬件架构(图3所示)更加适合大数据的处理要求。

图3 X86集群分布式架构

X86服务器集群在大数据处理上具备很多优势,包括:share-nothing硬件架构,支持集群Scale out横向扩展到数千台主机,支持PB、EB级数据处理;采用分布式数据库技术和分布式计算架构,计算和存储本地化,可以极大提升计算速度;低廉的硬件成本和高兼容性,也极大提升了单位数据量的性价比。

图4 大数据混合处理架构

传统的关系型数据库是按照行进行存储的,维护大量的索引和物化视图,在olAP应用方面处理性能低。新型的MPP数据库按照列进行存储,每一列单独存放,数据即是索引,只访问查询涉及的列,可大大降低系统I/O;每一列由于数据类型一致,数据特征相似,极大方便压缩;同时,MPP兼容标准SQL,适合大批量数据量查询场景。但是,MPP只能处理结构化数据,不能处理非结构化数据。

分布式计算框架Hadoop/Spark的分布式文件系统HDFS则可以高性能地处理非结构化数据,其对数据的多备份机制也可以极大提升系统的可靠性;同时,Hadoop/Spark支持流处理、机器学习、数据挖掘等先进的大数据处理技术。但是,以HBase为代表的NoSQL数据库在结构化数据处理上存在数据一致性、SQL兼容性等方面的不足。

因此,MPP分布式数据库和Hadoop/Spark组成的混合架构更加适合大数据处理要求,MPP处理高质量的结构化数据,保证数据一致性,提供SQL兼容能力;Hadoop/Spark处理非结构化数据、非结构化和低价值密度的结构化数据处理,同时提供实时流式处理、机器学习、数据挖掘等功能。

综上所述,大数据技术平台在硬件方面采用本地硬盘的X86服务器组成计算集群,提供高性价比、高扩展性的计算存储能力;在软件方面采用MPP分布式数据库和Hadoop/Spark分布式计算组成的混合架构(图4所示),提供对结构化数据、半结构化数据和非结构化数据的处理能力,以及流处理、机器学习、数据挖掘等工具和算法。

二、数据整合

经过多年信息化发展,企业已经开发了很多计算机信息系统和数据库系统,并积累了大量的基础数据。由于建设时期不同,设备、技术、使用部门和能力水平均存在差异,数据存储管理分散,造成了数据冗余和不一致性。同时,各部门没有采用一种通用的标准和规范,不能提供统一的数据接口,数据之间无法共享,不同的应用系统之间形成彼此隔离的数据孤岛(图5所示)。

图5 数据孤岛

如何消除数据孤岛,有效整合现有及未来的业务应用系统的数据资源已成为当前信息化建设的重要任务。数据整合是一个十分复杂且极具挑战性的工作,具有极强的专业性,以及与实际业务的紧密相关性。

图6 数据整合

数据整合(图6所示)不仅仅是解决数据的互通问题,更需要从全局的角度来进行规划和设计,包括:基础数据、应用数据、配置数据和数据管理等。

1、基础数据。汇集企业内部、外部取得的各类信息资源,并根据自身的大数据建设标准对数据资源进行标准化、规范化加工,形成基础数据资源库。

2、应用数据。在基础数据的基础上,通过对数据资源的挖掘分析、关联串并、索引化等加工处理方式,建立不同主题、不同维度、不同粒度的关联数据、专题数据和全文数据。

3、配置数据。对元数据、标准字典等进行科学有效的管理,实现数据资源可知、可管、可控等。

4、数据标准管理。主要包括代码、元数据、数据项集等标准管理。

5、数据质量监测。提供数据质量问题发现、跟踪、分析、解决等功能,并辅助用户建立数据质量提升机制。

6、数据资源监控。对数据仓库的资源运行状态、更新、使用、整合等情况进行持续监控,通过图表等多种方式进行展现。

7、数据资源目录。按照部门、来源、地域、业务系统等多种维度,直观地展示当前汇集的数据种类、数据来源、数据每日增量等情况,为掌握当前数据情况提供可视化的参考标准。

8、数据价值评估。对各个部门采集的信息建立数据价值评估体系,为数据采集奖惩机制提供决策支撑,形成数据采集、更新、应用、考核的良性循环。

9、数据安全管理。整理数据中的敏感信息,制定出符合监管要求并同时满足数据利用需要的脱敏规则,提供可重复调用的脱敏模块,管理对敏感数据的访问,防范保密数据泄露等安全隐患,完善数据风险管理体系。

综上所述,数据整合不仅是消除数据孤岛实现互通,而且需要整体规划和设计,建立大数据资源和管理体系,为大数据利用提供基本生产要素。

三、数据变现

大数据需要传统企业转变思维方式,抛弃过去的经验思维和惯性思维,借助于大数据来了解现状和需求,把数据收集、管理、分析、决策作为业务流程的重要组成部分,实现数据驱动业务;更重要的是,企业需要建立一套数据运营机制,最大限度挖掘大数据的价值,即数据变现,这是企业大数据建设的最重要目标。企业大数据变现可以从一下几个方面探索:

1、企业数据交易。企业内部数据和数据分析结果很多时候是其他企业的业务基础,企业把内部数据和分析结果经过加工、脱敏等处理后,作为商品通过大数据交易平台(如贵阳大数据交易所)提供给第三方机构使用,变现数据价值。

2、咨询报告交易。由专业的研究员对数据加以分析、挖掘,找出行业的定量特点进而得出定性结论,这些咨询报告面向社会销售。

3、数据分析服务。用户利用企业的大数据平台提供的丰富算法和模型,进行数据处理、数据统计、数据挖掘和结果输出等,数据集由系统统一进行管理,区分私有和公有数据,可以保证私有数据只供持有者使用。

四、结束语

图7 大数据建设模型

企业建设大数据,技术升级改造、数据整合管理和数据变现价值都不可或缺。但是,企业大数据建设是一个长期的、复杂的过程,需要整体咨询、规划和分阶段建设,并逐步完善数据运营机制。此外,大数据建设的每个环节也要依靠专业人才完成,需要培养一支懂业务、懂技术、懂管理、企业级的大数据管理、运营和治理团队。