如今,即使是最小的应用也能提供巨大的数据量。虽然这对企业来说是个好消息,但也意味着想要从中层层筛选出一条相关信息也是相当困难的。大数据的庞大数据量还会对企业带来一些别的困难,比如企业如何存储数据,找出最重要的数据点,处理超出预期大小的数据,如何实现一个恰当的分析过程,处理极端复杂的数据,如何找到足够合格的人才,如何找到能够提供最大价值的应用程序,缺乏自助服务能力和流程自动化怎么办,还有云计算和运营分析的挑战,如何少缴大数据的“学费”等等。
部署大数据的第一个课题是采取“技术密集型”的方式。该技术无疑是复杂的,所需的技能是相对稀缺的。最常见的大数据部署是从重新定位数据仓库开始。他们往往采取一个非常沉重的错误手段——定义数据类型、架构、映射和变换,ETL作业流程,数据质量流程和步骤。不久,大数据的转型变成一个需要3、4年努力的过程,更像是传统的ERP实施,完全失去了其实施的意义。
处理大数据的最好方式是将大数据分而治之。第一步将大数据从数据科学中独立出来。第二个人才危机的问题包含了专业的大数据处理资格的稀缺,以及企业运作方式的问题。二十世纪后期是专家的时代,然而,这样一个超大的学科结合体,是没有任何专家可以提供的。需要的是一群足够专业的通才。维持一群在大数据方面的通才工程团队,来管理大数据基础设施,在很大程度上能够简化运营复杂度。
云计算的好处已经被热炒了几年,它与大数据非常相关,但是云基础设施并不是必要的因素,更重要的是一个敏捷、弹性的基础设施,提供自助服务和自动化。在本地和云之间迁移PB级的数据是非常困难的。大多数的大数据系统相当有弹性,但他们在内部运行是最好。预部署模式也利于减轻基础设施的繁重成本。
企业和个人的学习曲线越早开始是越好的。大多数的大数据项目没有为工程师留下实现和学习的空间。这是基于每个人都应该在开始前准确知道他要做什么,并且不需要试验,也没有未知错误的假设。请放宽这一假设,并提供测试的基础设施和实验空间,这将促进和加快组织的学习。