探索中国CIO人才现状 | 第四季调研报告
大数据是一种未雨绸缪、决战未来的战略
2014-02-13  作者:物联中国 

  大数据的时髦是从2011年开始的。中国对这波趋势跟进的并不慢,旋即在2012年被称作中国的大数据元年。这其中,有两本书功不可没。前有涂子沛先生的《大数据》一书,从美国政府的数据信仰、政策和实践娓娓道来,让中国的意见领袖和知识精英接受了一次思维的洗礼;年末维克托·迈尔·舍恩伯格先生的《大数据时代》一书,则是系统论述大数据理念的奠基之作。如果说前者着力于发蒙——大数据可以做什么?后者则注重解惑——大数据该怎么做?


  随后在年末年初的喧闹中,大数据产业园、大数据日、大数据专委会、大数据专业、大数据实验室和各种大数据峰会接踵而来。物联网和大数据、云计算和大数据彼此抱团取暖,来抵消决策者对层出不穷新概念的审美疲劳。


  其实,大数据还只是在民间热。相比起物联网和云计算等新兴产业战略,大数据在国家战略层面还没有得到实质性的支持。这主要是对大数据雾里看花还存有很多疑惑:大数据究竟是什么新玩意儿?与以前的数据库、数据仓库、数据挖掘和商业智能有什么区别?市场到底有多大?中国应该重点发展什么?竞争优势和劣势在哪里?


  一个鲜明的现象是,每每某些官员们在台上指点江山、大谈大数据战略云云,而在台下则一见专家就虚心请教大数据新在什么地方。“两张脸”折射的是心无底气而腰杆不直。再仔细听内容,基本都来自2011年麦肯锡的《大数据:创新、竞争和生产力的下一个前沿》和2012年达沃斯的《大数据,大影响:全球发展的新可能》。“剩饭”不断炒,误国误民。


  实际上,大数据的“数据”背后是“以讹传讹”,其本质有强烈的商业目的。


  根据公开的资料,idc对于每年创建和复制的信息数据量做了预测:2011年1.8zb,2012年2.8zb,按照每两年翻一番的速度,2020年达到40zb。有人质疑,这个数据怎么算出来的?难道摩尔定律也适用大数据?而idc则秘而不宣。实际上,这个研究是在emc赞助下完成的,所以emc就笑而不语。


  如果说对静态数据(dataatrest)大体量的预测有助于存储的销售,那么动态数据(datainmotion)的大体量无疑跟网络需求绑在了一起。于是,cisco公司一个类似的预测则布道:2016年数据移动的总量达到1.3zb。


  但是,所有这些数据加起来都不如谷歌ericschmidt的说法有感染力:从人类文明曙光到2003年数以万计的时间长河里人类一共产生了5eb,而到2010年每两天人类就能产生5eb的数据。而究其研究方法,这些数据是怎么得来的也许只有天知道。奇怪的是,没有谁去质疑谁,因为自家发布的数字也是胡说八道。其实这些公司心里都明白,只有默契地把概念炒作起来大家才都受益。


  数据总量的增长主要归功于非结构化数据的增长。广义的非结构化数据也包括了半结构化和多结构化数据,目前普遍被认为占到总量的85%以上,而且增速比结构化数据快得多。低信息密度的非结构化数据是大数据的一大挑战,而挑战才是机会,业界巨擘们创造了很多新的概念来迎接非结构化数据,nosql数据库就是其中最亮丽的一个。


  对此,数据库行业的老法师mikestonebraker对此耿耿于怀,不惜力推“血统”更纯正的newsql数据库;sybase公司的ctoirfankhan甚至说大数据(这个新概念)根本就是个大谎言,声称他们的数据仓库工具早就能分析包括非结构化数据在内的大数据。


  实际上,这类总量数据的预测,对于存储和网络企业的投资者来说,无疑能提升信心,但对其他人来说,没有太大意义。他们更关心的是个体行业、企业甚至个人数据的状况。


  由此,毋庸置疑,必须要对大数据有清醒的认识。大数据是一种新的数据形态和实践,它不是取代当前主流的数据应用,而是与之并存。并且,在今后相当长的时间内,它仍然是个新鲜事物。即使年复合增长率高达32%,到2016年全球大数据技术和服务市场总额也就是240亿美金左右(idc在2012年底的预测)。不切实际、一窝蜂地上大数据项目不应鼓励。明明不算大数据,却偏要乔装打扮,削足适履上马hadoop和nosql更不足取。


  大数据也是一种战略、世界观和习惯。即使今天没有大体量的数据,还是可以尽可能自觉、客观、全面地测量世界,为未来的大数据实践做准备。对于一个企业或系统来说,真正的挑战在数据采集而非存储。


  微信在设计之初就把数据监控精细化,并纳入基础框架,这是意识和实力的体现。有多少公司像彭博社那样“如饥似渴”地采集数据?它能够雇佣一个卫星每周对位于俄克拉何马的美国最大原油储备库拍照,根据油罐浮动顶的阴影长度来判断原油储备量的变化。所以,成功者有成功的必然性。


  其实“数据即价值”的价值观早已存在,value不是大数据专享的属性,小数据照样有大价值。大数据的功劳在于唤醒大家的意识和觉悟。同样,从数据中发现价值的实践由来已久,横跨数据库、统计学和机器学习交叉学科的数据分析是大数据分析的基础,但传统的数据分析实践是无法适应大数据的发展的。


  不能神化大数据,它不是什么灵丹妙药,也不能矮化大数据,认为它就是包装旧概念。对一部分人来说,大数据已经是个客观存在和竞争优势;对绝大多数人来说,大数据可以是一种“从现在做起”的世界观,是一种未雨绸缪、决战未来的战略。